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3.12 (a) 钻石 价格 密度 轿 




















和 (b) 钻石 价格 对 数 密度 图 
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图 3.13 ”用 回归 研究 二 个 变量 
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图 3.14 点 
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用 于 可 视 化 多 个 变量 








汽车 气缸 和 齿轮 数量 的 分 布 
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均 家 庭 收入 ， 按 照 邮 编 分 组 





1 





log10 (MeanHouseholdIncome) 





4.0- 





图 3.16” 箱 线 图 表示 中 位 数 家 庭 收 入 和 地 理 区 域 的 关系 
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账户 价值 的 分 布 
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3.21 直方 图 更 适合 利益 相关 者 查看 
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图 4.1 3 k=3 时 可 能 的 k 均值 聚 类 簇 图 4.2 质心 的 初始 起 点 
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图 4.3 ”被 关联 到 最 近 质 心 的 点 


高 中 学 生 聚 类 分 析 
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图 4.7 高度 分 离 的 簇 示例 
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图 4.9 把 图 4.8 的 点 划分 成 6 ME 
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127 条 规则 生成 的 矩阵 























del 10 
54 S $ 
6 
44 4 
0.92 0.96 1 
m" 置信 度 
P 
* 
Qm 
2-3 
14 
20 40 60 80 100 120 
前 驱 (LHS) 
图 5.5 LHS 和 RHS 中 的 矩阵 可 视 化 ， 使 用 提升 度 和 置信 度 进 行 了 填 色 
30004 
20004 
te LI gk 
xi 
大 key 
10004 
04 a 
l 0.00 025 0:50 0.75 100 


图 6.17 用户 数 与 估计 的 流失 率 的 对 比 
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图 7.7 ”一 个 过 度 拟 合 的 模型 ， 它 在 j 








练 集 上 运行 良好 ， 但 是 对 未 见 过 的 数据 则 表现 糟糕 
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图 9.5 10 个 主题 在 Cora 数据 集中 9 篇 科学 文档 上 的 分 布 
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图 9.15 5 星 评论 ( 左 图 
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9.16 5 bPhone 相关 的 tweet 的 情感 分 析 
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11.3” 带 有 移动 平均 线 的 周 销量 
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11.4 每 周 销售 的 移动 平均 线 与 EWMA 










































































实施 一 个 早期 的 流失 模型 可 以 识别 30% 的 可 能 流失 的 客户 
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图 12.18 ”以 地 图 
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图 12.28 如何 清理 图 形 ， 例 1( 清理 之 前 ) 
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12.29 ”如何 清理 图 形 








例 1 (清理 之 后 ) 
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12.30 ”如 何 清理 图 形 一 一 例 1 ( 清理 之 后 的 另 一 个 
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12.81 如何 清理 
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图 形 一 一 例 2 ( 清理 之 前 ) 
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12.32 ”如 何 清理 图 形 一 一 例 2 ( 清理 之 后 ) 
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12.33 ”如 何 清理 图 形 








例 2 ( 清理 之 后 的 另 一 个 
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数据 科学 与 大 数据 分 析 在 当前 是 炙手可热 的 概念 , 关注 的 是 如 何 通 过 分 析 海 量 
背后 的 见解 。 本 书 是 数据 科学 领域 为 数 不 多 的 实用 性 技术 图 书 ， 它 通过 详细 剖析 数 ] 
阶段 来 讲解 用 于 发 现 、 分 析 、 可 视 化 、 表 示 数 ] 关 方法 和 技术 。 
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本 书 总 共 分 为 12 章 ， 主 要 内 容 包括 大 数据 分 析 的 简单 介绍 ， 数 据 分 析 生 命 周 期 的 各 个 阶段 ， 使 用 R 
语言 进行 基本 的 数据 分 析 ， 以 及 高 级 的 分 析 理论 和 方法 ， 主 要 涉及 数据 的 聚 类 、 关 联 规则 、 回 归 、 分 类 、 
时 间 序 列 分 析 、 文 本 分 析 等 方法 。 此 外 ， 本 书 还 涵盖 了 用 来 进行 高 级 数据 分 析 所 使 用 的 技术 和 工具 ， 比 如 
MapReduce 和 Hadoop, 、 数 据 库 内 分 析 等 。 
本 书 内 容 详 细 ， 示 全 丰富 ， 侧 重 于 理论 与 练习 的 结合 ， 因 此 比较 适合 对 大 数据 分 析 、 数 据 科 学 感 兴趣 
的 人 员 阅 读 ， 有 志 于 成 为 数据 科学 家 的 读者 也 可 以 从 本 书 中 获 益 。 


































































































































































































































































































在 日 常生 活 中 ,技术 的 进步 和 相关 的 变化 针对 我 们 周围 的 新 内 容 技 术 的 进步 和 因此 

的 实际 生活 中 的 变化 创造 了 一 个 迅速 膛 胀 的 、 充斥 着 与 我 们 息息相关 的 新 内 容 、 新 数据 和 讲 

的 信息 源 产生 了 一 个 迅速 膨胀 的 “平行 宇宙 ”。 无 论 如 何 定义 大 数据 ， 大 数据 现象 都 要 比 以 行 

无 处 不 在 、 更 普及 、 更 重要 。 大 数据 具有 巨大 的 价值 潜力 : 创新 性 的 见解 、 提 升 对 问题 

理解 能 力 ， 以 及 无 数 预测 ( 甚至 塑造 ) 未 来 的 机 会 。 数 据 科 学 是 发 现 和 挖掘 这 一 潜力 的 3 
Y 
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学 提供 了 处 理 大 数据 并 从 中 受益 的 方法 : 查看 模式 、 发 现 关 系 ， 以 及 搞 明 上 






























































具 多 样 化 的 图 
非 所 有 人 都 较 深层 次 地 学 习 过 统计 分 析 并 非 所 有 人 都 较 深入 地 学 习 过 统计 分 析 。 持 有 
] 数 学 高 级 学 位 的 人 也 不 是 商品 持 有 应 用 数学 高 等 学 位 的 人 群 并 不 普遍 。 而 且 几 乎 没有 组 织 
经 投入 资源 来 收集 大 量 数 据 几乎 很 少 有 组 织 机 构 曾 出 于 探索 性 分 析 的 主要 目的 而 投入 资源 来 
集 大 量 数据 ， ] 于 探索 性 分 析 的 目的 。 然 而 ， 尽 管 将 数据 科学 的 实践 应 用 了 当前 
个 有 兼职 的 差异 化 策略 尽管 将 数据 科学 的 实践 应 用 于 大 数据 在 当前 是 一 个 富有 价值 的 差异 化 
策略 ， 但 是 在 不 太 遥 远 的 将 来 ， 这 将 成 为 一 种 标准 的 核心 竞争 力 。 
个 组 织 机 构 是 如 何 能 够 快速 应 变 ， 以 利用 这 个 利用 这 一 趋势 呢 ? 这 就 是 这 就 是 我 们 写作 
本 书 的 目的 。 
EMC Education Services 一 直 在 聆听 行业 和 组 织 的 讯息 ,观察 技术 领域 在 多 方面 的 转变 观察 
技术 领域 在 各 个 方面 的 转变 ， 并 直接 进行 研究 ， 旨 在 创建 相关 课程 和 内 容 ， 以 帮助 个 人 和 组 织 
“华丽 转身 ”"。 就 数据 科学 和 大 数据 分 析 领 域 而 言 ， 我 们 的 教育 策略 是 在 平衡 三 件 事情 : 人 (万 
其 是 在 数据 科学 团队 环境 下 的 人 尤其 是 在 数据 科学 团队 里 的 人 )、 过程 (例如 本 书 中 介绍 的 分 析 
生命 周期 法 )、 工 具 和 技术 ( 这 里 指 的 是 成 熟 的 分 析 工 具 )。 
所 以 ,让 我 们 来 帮助 您 充分 利用 围绕 在 我 们 周围 的 这 一 新 “平行 宇 害 ”。 我 们 邀请 您 通过 本 
书 来 学 习 数据 科学 和 大 数据 分 析 ， 并 希望 它 能 够 加 速 您 的 转变 过 程 
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本 着 开发 一 门 “公开 ”的 课程 和 认证 的 目的 ，EMC Education penis 开始 着 手 于 数据 科学 
与 大 数据 分 析 这 个 领域 。 在 人 们 对 “怎样 成 为 一 名 真正 的 数据 学 科学 家 ”知之 甚 少 的 时 代 ， 
发 这 样 一 门 课程 注定 充满 挑战 。 经 过 初步 研究 (MBA) 之 后 ， 我 们 找到 了 这 个 问题 的 答案 ， 

吸引 了 非常 有 才华 的 专业 人 员 来 参与 这 一 项 目 。 至 此 ,“ 数 据 科 学 和 大 数据 分 析 ” 这 门 课 程 业 

已 被 学 术 界 和 工业 界 广泛 接受 和 认可 。 

本 书 由 EMC Education Services 主导 ， 是 许多 核心 EMC 部 门 共 同 付出 和 努力 的 产物 ， 并 得 
到 了 Office of the CTO, IT, Global Services 和 Engineering 部 门 的 支持 。 诚 挚 地 感谢 诸位 主要 的 
贡献 人 和 相关 专家 : David Dietrich 、Barry Heller 和 Beibei Yang， 感 谢 你 们 为 本 书 创作 的 内 容 和 
到 片 。 特 别 a Jobn Cardente 和 Ganesh Rajaratnam， 感 谢 你 们 积极 审阅 本 书 的 众多 章节 ， 并 提 
供 了 有 价值 的 反馈 意见 。 

我 们 还 要 感谢 EMC 和 Pivotal 公司 的 下 述 专家 ， 谢 谢 你 们 在 评审 、 优 化 本 书 内 容 方 面 所 提 
















































































供 的 支持 。 
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Joe Kambourakis 























































































































Alexander Nunes Joe Milardo 

Bryan Miletich John Sopka 

Dan Baskette Kathryn Stiles 

Daniel Mepham Ken Taylor 

Dave Reiner Lanette Wells 

Deborah Stokes Michael Hancock 

Ellis Kriesberg Michael Vander Donk 

Frank Coleman Narayanan Krishnakumar 

Hisham Arafat Richard Moore 

Ira Schild Ron Glick 

Jack Harwood Stephen Maloney 

Jim McGroddy Steve Todd 

Jody Goncalves Suresh Thankappan 

Joe Dery Tom McGowan 

我 们 还 要 感谢 Ira Schild 和 Shane Goodrich 为 本 书 所 做 的 协调 工作 ， 感 谢 MalleshGurram i 

计 的 封面 ， 感 谢 Chris Conroy 和 Rob Bradley 提供 的 图 片 ， 感 谢 John Wiley & Sons 出 版 社 在 将 
本 书 推 向 工业 界 方面 所 提供 的 及 时 的 支持 。 




































































IOL 


MA 
Euh 








高 级 总 监 ，EMC 公司 





AW, EMC 公司 


Nancy Gessler 
Education Services 部 门 
Alok Shrivastava 
Education Services 部 门 











译 者 简介 


曹 逾 ， 于 新 加 坡 国立 大 学 获得 计算 机 博士 学 位 ， 资 深 大 数据 与 机 器 学 习 专 家 ， 当 前 供职 于 
EMC 中 国 卓 越 研发 集团 首席 技术 官办 公 室 ， 同 时 担任 EMC 中 国 研 究 院 数据 科学 实验 室 主任 ， 
主要 负责 EMC 大 中 华 区 大 数据 与 数据 科学 方向 的 应 用 型 研究 以 及 创新 解决 方案 研发 ,同时 也 负 
责 EMC 在 亚太 特别 是 中 国 大 陆地 区 的 高 校 科 研 合作 项 目 。 曹 博士 在 SIGMOD, VLDB, ICDE, 
VLDB Journal 等 顶级 国际 会 议和 期 刊 发 表 论文 20 余 篇 ， 并 多 次 受 邀 担任 国际 会 议和 期 刊 审 稿 
A, 而且 其 相关 研究 成 果 在 EMC 内 部 产品 及 解决 方案 中 得 以 广泛 应 用 。 曹 博士 拥有 60 余 项 美 
国 及 国际 专利 授权 或 申请 。 
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刘 文 苗 ， 现 任 EMC IT 第 三 平台 高 级 项 目 经 理 ， 对 大 数据 、 存 储 系统 、 网 络 系统 以 及 文件 
系统 具有 一 定 研 究 ， 还 具有 国内 顶尖 金融 行业 多 年 从 业经 验 。 刘 先生 曾经 参与 过 上 海 证 券 交易 
所 新 一 代 交 易 系 统 、 海 通 期 货 核心 交易 系统 的 设计 与 建设 工作 。 
















































































































































































李 枫 林 ， 于 上 海 交 通 大 学 获得 软件 工程 硕士 学 位 ， 曾 在 微软 中 国 公司 担任 数据 库 工程 师 ， 
现 就 职 于 EMC 中 国 研发 中 心 ， 担 任 Senior Social Engagement Manager 一 职 ， 主 要 负责 EMC 中 
文 技术 社区 的 运营 与 后 台数 据 处 理工 作 ， 近 年 来 潜心 外 人 研 数据 存储 与 大 数据 相关 技术 ， 曾 在 
EMC 中 文 社区 及 社交 媒体 上 发 表 多 篇 大 数据 技术 相关 的 文章 。 
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云 架 构 、 大 数据 快 数据 处 理 与 分 析 、 软 件 定 义 存储 等 领域 有 着 





























硅谷 地 区 创立 WL 科技 公司 并 成 功 带 领 公司 在 2004 年 与 香港 Telewave 集团 
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研发 、 战 略 合作 与 创新 等 工作 。 
“的 经 验 。Ricky 既 有 在 大 型 跨国 
的 创业 经 历 ， 曾 于 2001 年 在 美国 加 州 
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EKE EMC 首席 技术 官办 公 室 ， 全 球 战 略 合作 伙伴 高 级 经 理 

















RM EMC 首席 技术 
EMG EMC 首席 技术 








办 公 室 ， 全 球 战略 合作 伙伴 项 目 经 理 
办 公 室 ， 全 球 成 略 合作 伙伴 高 级 项 目 经 理 
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大 数据 可 以 帮助 企业 从 他 们 最 宝贵 的 信息 资产 中 挖掘 到 新 的 商机 ， 从 而 创造 出 新 的 价 全 
成 竞争 优势 。 对 于 企业 用 户 而 言 ， 大 数据 可 以 帮助 提高 生产 效率 、 提 升 产 品质 量 和 提供 

化 的 产品 和 服务 ， 从 而 帮助 改进 客户 满意 度 并 提升 企业 利润 率 。 对 于 学 术 界 而 言 ， 大 数据 分 
提供 了 一 种 更 加 先进 的 分 析 手 段 ， 可 以 玫 助 获取 更 丰富 的 分 析 成 果 和 更 深入 的 洞察 力 。 在 许 
情况 下 ， 大 数据 分 析 集合 了 结构 化 和 非 结 构 化 数据 的 实时 获取 和 查询 ， 开 折 了 创新 和 洞察 的 
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书 将 介绍 大 数据 分 析 中 从 业 人 员 和 党 用 的 一 些 关 键 技术 和 分 析 方法 。 通 过 掌握 这 些 常 用 
大 数据 分 析 方法 ， 将 帮助 您 胜任 大 数据 分 析 项 目 。 书 中 内 容 会 让 不 同 的 读者 群体 受益 : 业务 
数据 分 析 师 通过 阅读 本 书 ， 可 以 学 习 到 很 多 实用 的 大 数据 分 析 方 法 ; 数据 库 从 业 人 员 、 商 业 
能 经 理 、 分 析 师 和 大 数据 从 业者 通过 阅读 本 书 可 以 丰富 数据 分 析 技 能 ， 大 学 毕业 生 通 过 阅读 才 
书 可 以 了 解 如 何 将 数据 科学 做 为 职业 发 展 领域 。 

?包括 12 章 。 第 1 章 主 要 向 读者 介绍 大 数据 领域 、 高 级 数据 分 析 的 驱动 力 和 数据 科学 家 
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第 2 章 主 要 介绍 根据 假设 驱动 ( Hypothesis-driven ) 的 大 数据 分 析 的 特点 和 挑战 所 设计 的 项 目 生 






























































生 介 绍 通过 数据 可 
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第 3 章 将 在 开源 R 分 析 软 件 环境 下 探讨 基础 的 统计 方法 和 技术 ， 此 外 还 
视 化 进行 探索 性 分 析 的 重要 性 ， 并 回顾 基于 假设 的 开发 和 测试 等 关键 概念 。 
第 4~9 章 主 要 介绍 一 系列 先进 的 数据 分 析 方 法 ， 包括: RR, SR, E 
和 文本 分 析 。 
第 10—11 章 讲 解 支持 大 数据 高 级 分 析 功 能 的 几 种 特定 技术 和 工具 ， 特 别 是 MapReduce 和 它 在 
Hadoop 生态 系统 中 的 应 用 实例 ， 以 及 对 SQL 和 数据 库 内 建文 本 分 析 功 能 的 深入 讲解 。 

第 12 章 将 指导 如 何 运作 大 数据 分 析 项 目 。 本 章 将 重点 讲解 如 何 将 一 个 分 析 项 目 转换 成 组 织 
运作 的 资产 ， 如 何 基于 数据 创建 清晰 有 用 的 可 视 分 析 结 果 ， 完 成 最 终 的 交付 工作 。 
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3 分析、 时 间 序 列 
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EMC 学 院 联盟 

EMC 学 院 联 盟 就 以 下 主题 提供 开放 式 的 课程 基础 教育 , 我 们 诚 执 邀请 大 专 院 校 通过 加 入 学 
院 联 盟 项 目的 方式 访问 获取 课程 内 容 。 

e 数据 科学 与 大 数据 分 析 ; 
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e 信息 存储 与 管理 ; 
e 云 基 础 设施 与 服务 ; 
e 备份 恢复 系统 与 体系 结构 。 

该 项 目 旧 在 为 学 生 提供 师资 和 课程 资源 ， 以 应 对 当今 YT 行业 不 断 变化 。 欲 了 解 更 多 信息 
请 访问 : http://education.EMC.com/academicalliance。 





















































































































































EMC 专家 认证 证 书 

EMC 专家 认证 是 IT 行业 领先 的 教育 和 认证 项 目 ， 涵 盖 了 信息 存储 技术 、 虚 拟 化 技术 、 云 
计算 、 数 据 科 学 与 大 数据 分 析 等 领域 。 

通过 认证 是 一 种 很 好 的 自我 投资 方式 ， 同 时 也 是 对 自己 专业 知识 的 正式 验证 。 

本 书 可 以 作为 准备 数据 科学 专员 (EMCDSA ) 认证 的 资料 。 欲 了 解 更 多 信息 ， 请 访问 : 
http://education.EMC.com. 
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第 1 章 ”大 数据 分 析 介绍 




















产业 界 、 学 术 界 和 政府 对 大 数据 和 高 级 数据 分 析 的 需求 已 有 诸多 讨论 。 随 着 新 数据 源 的 
大 量 出 现 和 更 为 复杂 的 分 析 需 求 的 大 量 增加 ， 和 人们 开始 反思 现 有 的 数据 架构 是 否 可 以 发 挥 大 
数据 分 析 的 优势 。 此 外 ， 对 于 大 数据 的 定义 以 及 需要 什么 技能 来 发 挥 大 数据 的 最 大 优势 ， 这 
在 业界 也 一 直 存 在 着 较 多 和 争论。 本 章 将 解释 儿 个 关键 的 概念 ， 以 便 让 您 了 解 什么 是 大 数据 、 
为 什么 需要 高 级 分 析 、 数 据 科 学 和 商业 智能 (Business Intelligence ) 的 区 别 ， 以 及 新 的 大 数据 
生态 系统 中 需要 哪些 新 角色 。 


1.1 大 数据 概述 


数据 在 以 越 来 越 快 的 速度 不 断 增长 。 移 动 电话 、 社 交 媒 体 和 用 于 医 的 影像 技术 
业务， 每 天 都 会 产生 大 量 的 新 数据 ， 这 些 数据 都 需要 存储 到 起 来 供 日 后 使 用 。 此 外 ， 设 
传 感 咒 自动 生成 的 诊断 信息 也 需要 得 到 实时 存储 和 处 理 。 应 对 如 此 庞大 的 数据 涌 入 不 是 
牛 很 容易 的 事情 ， 更 有 具 挑战 的 是 如 何 分 析 这 些 海 量 数据 ， 尤 其 是 当 这 些 数 据 不 是 传统 的 结 
数据 时 ， 如 何 才能 识别 有 意 》 I 用 的 信息 呢 ? 这 些 海量 数据 带 来 了 许 
挑战 ， 同 时 也 为 改变 商业 、 政 府 、 科 学 和 入 们 的 日 剃 生活 带 来 了 可 能 。 
下 面 几 个 行业 在 收集 和 利用 数据 方面 做 的 非常 出 色 。 
e 信用卡 公司 监控 其 用 户 的 每 一 笔 交 易 ， 并 使 用 从 数 十 亿 笔 业务 的 处 理 中 获得 的 规则 ， 
相当 精准 地 识别 欺诈 交易 。 
e ”移动 运营 商 分 析 用 户 的 呼叫 模 式 ， 能 够 判断 哪些 用 户 经 常 和 其 他 移动 运营 商 的 用 户 和 有 
系 。 为 了 避免 竞争 对 手 通 过 低 价 合同 来 吸引 自己 的 用 户 ， 运 营 商 可 以 预 移 为 这 些 用 户 
提供 奖励 ， 以 防止 用 户 流失 。 
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© 对 于 LinkedIn 和 Facebook 这 类 公司 ， 数 据 本 身 就 是 其 主要 的 产品 。 这 些 公司 的 估 值 人 
大 部 分 源 于 他 们 收集 和 托管 的 数据 ， 随 着 数据 的 增长 ， 这 些 数据 的 内 在 价值 也 会 越 来 
越 多 。 

具体 来 说 ， 大 数据 具有 3 个 基本 特征 


















































e ”数据 体 量 巨大 : 大 数据 的 数据 体 量 远 不 止 成 干 上 万 行 ， 而 是 动 绕 儿 十 亿 行 ， 数 百 万 列 。 
e 数据 类 型 和 结构 复杂 : 大 数据 反映 了 各 种 各 样 新 的 数据 源 、 数 据 格式 和 数据 结构 ， 包 
括 网 页 上 留 下 的 数字 痕迹 和 可 供 后 续 分 析 的 其 他 数字 资料 库 。 









































































































































































































































e 新 数据 的 创建 和 增长 速度 : 大 数据 能 够 描述 高 速 数据 ， 快 速 地 采集 数据 和 近乎 实时 地 
分 析 数 据 。 

尽管 大 数据 的 体 量 最 受 人 们 关注 ， 通 常 来 讲 ， 数 据 的 种 类 和 速度 却 能 更 贴切 地 定义 大 数 

据 (业界 将 大 数据 归纳 为 3 个 V: 数量 [Volume]、 种 类 [Variety] 和 速度 [Velocity] )。 由 于 其 数据 

结构 和 数据 规模 的 特点 ， 使 用 传统 的 数据 库 或 方法 已 经 很 难 有 效 地 分 析 大 数据 了 。 因 此 , 我 



































































































































































































































£ 点 
们 需要 新 的 工具 和 技术 来 存储 、 管 理 和 实现 其 商业 价值 。 这 些 新 的 工具 和 技术 能 够 创建 、 操 
纵 、 管 理 大 型 数据 集 和 用 来 存储 数据 集 的 存储 环境 。2011 年 ， 麦 肯 锡 发 布 的 全 球 报告 给 大 数 









































1.1 大 数据 概述 





据 下 了 一 个 定义 : 


大 数据 是 具有 大 规模 、 分 布 式 、 多 样 性 和 /或 时 效 性 的 数据 ， 这 些 特 点 决定 了 必须 
采用 新 的 技术 架构 和 分 析 方 法 才能 有 效 地 挖掘 这 些 新 资源 的 商业 价值 。 


zELIE. 














锡 公 司 《Big Data: The Next Frontier for Innovation, Competition, and 
Productivity ) [1] 


麦肯锡 对 大 数据 的 定义 表明 ， 公 司 需要 新 的 数据 架构 和 分 析 沙 盘 、 新 的 工具 、 新 的 分 析 方 
法 ， 以 及 将 多 种 技能 整合 到 数据 科学 家 的 新 角色 中 (这 将 在 1.3 节 将 详细 讲解 ) 图 1.1 列举 了 
大 数据 洪流 的 几 个 主要 来 源 。 














































































































大 数据 洪流 的 几 个 主要 来 源 





视频 泻 染 





智能 电网 地 球 物理 勘探 
图 1.1 大 数据 洪流 的 几 个 主要 来 源 
































从 图 1.1 中 所 列 的 几 个 来 源 可 见 ， 数 据 创造 的 速度 正在 加 快 。 
大 数据 中 增长 最 快 的 数据 源 是 社交 媒体 和 基因 测序 ， 它 们 也 是 非 传统 的 被 用 来 分 析 的 数据 


































































































例如 , 在 2012 F, Facebook 全 球 用 户 每 秒 钟 会 发 布 700 条 状态 更 新 , 通过 分 析 这 些 状态 更 
新 信息 就 可 以 判断 出 用 户 的 政治 观点 和 潜在 的 兴趣 产品 ， 从 而 有 针对 性 地 向 用 户 投放 广告 。 比 
方 说 ， 如 果 某 位 Facebook 女性 用 户 将 自己 的 感情 状况 从 “单身 ” 改 为 “ 定 婚 ”， 那 么 误 

针对 性 地 向 这 位 用 户 投放 婚纱 礼服 、 婚 礼 策划 或 更 改名 称 这 类 服务 的 广告 。 

Facebook 还 可 以 通过 构建 社交 图 来 分 析 用 户 彼此 之 间 的 互联 关系 。 在 2013 年 3 月 ,Facebook 
就 发 布 了 一 项 名 叫 “ 搜 图 “ Graph Search ) 的 新 功能 ， 用 户 和 开发 人 员 可 以 使 用 该 功能 来 搜索 
兴趣 、 爱 好 和 共享 位 置 相 似 的 用 户 群 。 
基因 组 学 也 有 成 功利 用 大 数据 的 例子 。 基 因 测 序 和 人 类 基因 图 谱 有 助 于 科学 家 深入 了 解 人 
类 基因 的 构成 和 血统 。 此 外 ， 医 疗 保健 行业 也 正在 试图 预测 人 的 一 生 中 容易 生 的 疾病 ， 然 后 使 
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药物 和 医 


L| 








个 性 化 的 医疗 方法 来 预防 这 些 疾病 或 减轻 这 些 疾病 的 影响 。 这 类 测试 也 会 标记 不 














] 药 的 反应 ， 以 提高 特殊 药物 治疗 的 风险 意识 。 
虽然 数据 增长 很 快 ， 但 是 执行 数据 分 析 的 成 本 却 在 急剧 下 降 。2001 年 为 人 类 基因 测序 的 5 
本 要 1 亿美 金 , 到 2011 年 该 项 费用 只 需 1 万 美元 , 目前 该 费用 还 在 持续 下 降 。 现 在, 在 23andme 
( 见 图 1.2) 这 样 的 网 站 上 进行 基因 分 型 ( genotyping ) 只 需要 不 到 100 美元 。 虽 然 分 型 只 是 


基因 组 的 一 小 部 分 ， 并 且 没 有 基因 测序 那么 细 的 分 析 粒 度 ， 但 还 是 可 以 佐证 一 个 事实 ,村 
就 是 数据 和 复杂 的 分 析 正 在 变 得 越 来 越 普 遍 ， 而 且 越 来 越 便宜 。 
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图 1.2 ”通过 基因 分 型 可 以 学 到 什么 ， 源 于 网 站 23andme.com 


社交 媒体 和 基因 测序 的 例子 表明 ， 个 人 和 组 织 都 会 从 分 析 更 为 庞大 和 复杂 的 数据 中 受益 ， 
而 分 析 这 些 数 据 则 需要 更 加 强大 的 分 析 性 能 。 


































































































1.1.1 数据 结 格 
大 数据 可 以 有 多 种 形式 ,包括 结构 化 数据 和 类 似 财务 数据 、 文 本 文件 、 多 媒体 文件 和 基 



























































1.1 大 数据 概述 
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定位 图 这 样 的 非 结构 化 数据 。 不 同 于 传统 数据 分 析 , 绝 大 多 数 的 大 数据 天 生 是 非 结构 化 数 
据 或 者 半 结 构 化 的 数据 ， 因 而 需要 被 有 别 于 传统 的 技术 和 工具 来 处 理 和 分 析 [2]。 分 布 式 计 
算 环境 和 大 规模 并 行 处 理 (MPP ) 架构 让 数据 的 并 行 化 采集 和 分 析 成 为 处 理 这 些 复杂 数据 的 
首选 方法 。 
鉴于 此 ， 本 节 将 继续 讲解 数据 的 结构 。 
图 L3 中 列 出 了 数据 结构 的 4 种 类 型 ,未 来 80% 一 90% 的 增长 数据 都 将 是 非 结构 化 数据 类 型 
[2]。 昌 然 从 结构 上 看 数据 可 以 被 分 成 四 种 类 型 ， 可 是 大 部 分 的 数据 都 是 混合 类 型 。 例 如 ， 一 
典型 的 关系 型 数据 库 管理 系统 ( RDBMS ) 可 能 存储 着 软件 支持 呼叫 中 心 的 呼叫 日 志 。RDMBS 
可 能 将 呼叫 的 特征 存储 为 典型 的 结构 化 数据 ， 它 具有 时 间 蕉 、 机 器 类 型 、 问 题 类 型 和 操作 系统 
等 属性 。 此 外 ， 该 系统 也 可 能 存储 着 非 结构 化 、 准 结构 化 或 者 半 结 构 化 数据 ， 例 如 ， 从 电子 邮 
件 故 障 单 、 客 户 聊天 历史 记录 、 用 来 描述 技术 问题 和 解决 方案 的 通话 记录 ， 以 及 客户 通话 语音 
文件 中 提取 出 来 的 自由 格式 的 呼叫 日 志 信息 。 从 呼叫 中 心 的 非 结构 化 、 准 结构 化 或 半 结构 化 数 
据 中 可 以 提取 甚 多 洞 见 。 



























































































































































































































































































































































































































































































































































































































































































































































































































































大 数据 特征 : 数据 结构 
数据 的 增长 越 来 越 非 结构 化 





结构 化 


图 1.3 ”大 数据 的 增长 越 来 越 非 结构 化 


越 来 越 结构 化 


















































虽然 结构 化 数据 的 分 析 技 术 已 经 非常 成 熟 , 但 是 我 们 还 是 需要 不 同 的 技术 来 应 对 半 结 构 
化 数据 (比如 XML 格式 )、 准 结构 化 数据 ( 比如 点 击 流 ) 和 非 结 构 化 数据 分 析 所 带 来 的 新 
挑战 。 
下 面 给 出 了 4 种 主要 数据 结构 类 型 的 定义 和 例子 。 
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e ”结构 化 数据 : 数据 包括 预定 义 的 数据 类 型 、 数 据 格式 和 数据 结构 ( 例如 交易 数据 、 在 
线 分 析 处 理 [OLAP] 数 据 集 、 传 统 的 RDMBS 、CSYV 文件 甚至 电子 表格 )。 详 细 信 息 参 考 
图 1.4。 




















SUMMER FOOD SERVICE PROGRAMI] 
(Data as of August 01, 2011) 
Fiscal Number of Peak (July) Meals Total Federal 
---Million $--- 
1969) f à 2 $99 a 03 
1970 1.8 
1971 82 
1972 219 
1973 26.6 
1974 33.6 
1975 503 
976] — — — 160 — — —  2453| 1048] 734 
TQ3 88.9 
1977 114.4 
1978 100.3 
1979 108.6 
1980 110.1 
1981 105.9 
1982 87.1 
1983 93.4 
1984 96.2 
1985 111.5 
1986 114.7 
1987 1293 
1988 133.3 
1989 143.8 
1990 163.3 


图 1.4 结构 化 数据 示例 























e 半 结 构 化 数据 : 有 识别 模式 的 文本 数据 文件 ， 文 持 语法 分 析 〈 例 如， 有 模式 定义 的 和 
9 描述 的 可 扩展 标记 语言 [XML] 数 据 文 件 )。 详细 信息 参考 图 1.5。 
e 准 结构 化 数据 : 这 类 文本 数据 带 有 不 规则 的 数据 格式 ， 但 是 可 以 通过 工具 规则 化 〈 例 
如 ， 可 能 包含 不 一 致 的 数据 值 和 格式 的 网 页 点 击 流 数 据 )。 详 细 情 况 可 参考 图 1.6。 
e 非 结 构 化 数据 : 数据 没有 固有 的 结构 ， 例 如 文本 文件 、PDF SCH. EVRA. TEA 
情况 可 参考 图 1.7。 
准 结构 化 数据 是 一 种 被 极 大 关注 的 常见 数据 类 型 。 让 我 们 看 看 下 面 这 个 示例 。 如 果 一 位 用 
户 参 加 了 一 年 一 度 的 EMC WORLD 大 会 ， 然 后 在 网 上 使 用 谷歌 搜索 引擎 来 查找 EMC 与 数据 科 
学 相关 的 信息 。 这 样 就 产生 了 一 个 类 似 https://www.google.com/#q=EMC+ datatscience 的 URL 
地 址 和 结果 列表 ， 如 图 1.5 中 第 1 张 图 所 示 。 
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1.1 大 数据 概述 





Toolbars 
Quick tabs 
Explorer bars 


KTS&fOU/NONS  MUDACES SUPPORT HOWTO RET C 


Go to 


EMC WORLD 


c pm 


Caret browsing 


Source 
Security report 
International website address 
Webpage privacy policy... 
VISUALIZE. AMAZE. OPNMITE f Panning hand 
STORAGE RESOURCE = fuseren 


<meta charset="utf-8"> 
<meta http-equive"X-UA-Compatible" content="IE=edge, chrome=i"> 
<title>EMC - Leading Cloud Computing, Big Data, and Trusted IT Solutions</title> 


<meta name="description" content*""EMC is a leading provider of IT storage hardware solutions to promote dag 
cloud computing."> 
name="keywords" content="emc,network storage,data recovery,information management,backup software,nas storag¢ 


<meta name*"viewport" content="width=device-width, initial-scale=1"> 


n Yo i " rel="stylesheet" > 
pt sic-*/ PEE E P I Genes’ s"></script> 

="stylesheet" href="/Ri/assets/ces/common/normalize.css"> 
"stylesheet" Ta > 
"stylesheet" hrefe" nsive-h x “> 


i="stylesheet" nref="/Ri/assets/css/common/responsive-footer.css" > 


<script type="text/javascript" src="//platfozrm. twitter. com/widcets.is"></script> 
CaO sarc""/Ri/assets/is/common/modernizr-2..6.2.mn.12" ></script> 


图 1.5 半 结 构 化 数据 示人 












































在 搜索 之 后 , 用 户 通 过 访问 第 2 个 链接 地 址 , 就 可 以 获得 更 多 “数据 科学 家 一 一 EMC 教育 、 
间 训 和 认证 ”的 相关 内 容 。 这 会 将 用 户 带 到 关注 该 主题 的 一 个 emc.com 站 点 以 及 一 个 新 的 URL: 
https://education.emc.com/guest/campaign/data_science.aspx， 如 图 1.6 中 第 2 张 图 片 所 示 。 在 该 网 
站 ， 用 户 还 可 以 了 解 到 数据 科学 认证 的 相关 流程 。 通 过 点 击 认 证 页 面 顶 部 的 链接 ， 就 可 以 访问 一 个 
新 的 URL 地 址 : https://education.emc.com/guest/certification/framework/stf/data_science.aspx, YA] 1.6 
中 第 3 张 图 所 示 。 

访问 上 述 3 个 网 站 就 增加 了 3 个 URL 地 址 到 日 志文 件 , 该 日 志文 件 用 于 监控 用 户 计算 机 或 
网 络 的 使 用 情况 。 这 3 个 URL 网 址 分 别 如 下 所 示 。 
https://www.google.com/#q=EMC-+data+science 
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https://education.emc.com/guest/campaign/data, science.aspx 


https://education.emc.com/guest/certification/framework/stf/data science.aspx 
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: 南极 科 考 相关 视频 [3] 
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四 科学 信 ， 
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" DATA SCIENCE AND BIG DATA ANALYTICS 





和 操作 。 





























此 ， 数 据 科 学 家 


1.1 大 数据 概述 


















































通过 分 析 和 挖掘 相关 的 点 击 流 ， 可 以 发 现 使 用 模式 ， 揭 开 点 击 之 间 的 关系 ， 以 及 一 个 或 一 组 
网 站 上 的 热点 区 域 。 
节 介绍 的 四 种 数据 类 型 有 时 被 归纳 为 二 类 : 结构 化 数据 和 非 结构 化 数据 。 而 大 多 数组 织 
机 构 并 不 习惯 处 理 大 数据 ， 特 别 是 那些 非 结构 化 数据 。 因 此 ， 下 一 节 将 从 大 数据 分 析 的 角度 介 
绍 一 些 常用 的 技术 架构 。 


1.1.2 ”数据 存储 的 分 析 视 角 


EE 子 表格 赋予 数据 行 和 列 的 结构 ， 使 得 商业 用 户 可 以 在 数据 的 行 和 列 结构 上 创建 简单 的 逻 
辑 ， 从 而 创建 针对 业务 问题 的 分 析 。 创 建 电 子 表格 非常 方便 快速 ， 并 不 需要 专门 的 数据 库 管 理 
员 培 训 。 电 子 表格 非常 便于 分 享 ， 用 户 可 以 控制 所 涉及 的 逻辑 。 然 而 ， 它 们 的 扩散 会 导致 “ 真 
相 有 许多 版 本 ”。 换 句 话说 ,我 们 很 难 确定 某 个 特定 用 户 是 否 拥 有 最 相关 的 电子 表格 版 本 ( 其 中 
具有 最 新 的 数据 和 多 辑 ) 而 且 , 笔记 本 丢失 或 者 文件 损坏 都 可 能 会 造成 电子 表格 内 数据 和 逻辑 
的 丢失 。 在 世界 上 的 许多 计算 机 中 都 运行 着 电子 表格 程序 (比如 Microsoft Excel )， 所 以 这 个 挑 
成 将 持续 存在 。 随 着 数据 岛 的 增加 ， 数 据 集中 化 的 需求 比 以 往 任 何 时 候 都 要 更 加 迫切 。 

随 着 数据 需求 的 增长 ， 更 多 可 扩展 的 数据 仓库 解决 方案 出 现 了 。 这 些 技术 使 得 数据 可 以 
集中 管理 ， 可 以 提供 安全 性 、 故 障 切 换 和 单一 存储 仓库 ， 用 户 可 以 从 中 获取 到 “官方 ”数据 用 
数据 存储 仓库 也 便于 创建 OLAP 多 维 数据 集 和 商业 智能 分 

H 7 
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于 财务 报表 或 者 其 他 关键 任务 。 单 
析 工 具 ， 可 以 用 来 快速 访问 关系 型 数据 库 管理 系统 内 的 一 组 数据 维度 。 此 外 ， 的 高 级 功能 
提供 了 高 性 能 的 深入 分 析 技 术 ， 比 如 回归 和 神经 网 络 。 企 业 数据 仓库 (EDW ) 对 于 报表 和 商业 
智能 任务 都 非常 关键 ,能够 解决 电子 表格 增生 (proliferating) 所 引起 的 许多 问题 ， 比 如 在 具有 
多 个 版 本 的 电子 表格 中 , 无 法 确定 哪 一 个 版 本 是 正确 的 。EDW 和 展 好 的 商业 智能 战略 从 集中 管 
理 、 备 份 和 保护 的 数据 源 中 提供 了 直接 的 数据 提要 (data feed )。 

虽然 企业 数据 存储 库 和 商业 智能 有 许多 优点 ， 但 是 它们 都 会 限制 在 执行 健壮 的 和 探索 性 数 















































































































































据 分 析 时 所 需要 的 灵活 性 。 在 EDW 模型 中 ，IT 部 门 或 者 数据 库 管 理 员 (DBA ) 管理 和 控制 数 
据 ， 数 据 分 析 员 必须 通过 IT 部 门 来 访问 和 修改 数据 模式 。 这 会 导致 分 析 员 花费 更 长 的 时 间 来 获 
得 数据 ， 大 量 的 时 间 都 浪费 在 等 待 审 批 这 类 没有 意义 的 工作 上 。 此 外 ， 大 多 数 情 况 下 ，EDW 的 
规则 都 会 限制 分 析 员 构建 数据 集 。 因 此 ， 经 常会 用 到 额外 的 系统 ， 该 系统 包含 用 来 构建 分 析 数 
据 集 的 关键 数据 ， 并 且 由 用 户 在 本 地 管理 。 一 般 情况 下 ，IT 部 门 都 不 喜欢 无 法 控制 的 数据 源 ， 
为 不 像 EDW ， 这 些 数据 集 是 不 受 管理 的 ， 而 且 也 没有 保护 和 备份 。 在 分 析 员 看 来 ，EDW 和 
商业 智能 解决 了 数据 准确 性 和 可 用 性 的 问题 ， 但 是 也 带 来 了 灵活 性 和 人 敏捷 性 相关 的 新 间 题 ， 这 
些 问题 在 处 理 电 子 表格 的 时 候 并 不 明显 。 
分 析 沙盘 (analytic sandbox ) 是 解决 这 个 问题 的 一 种 方法 ， 它 试图 解决 分 析 员 、 数 据 科 学 
家 与 EDW、 严 格 管理 的 企业 数据 之 间 的 冲突 。 在 此 模式 下 , YT 部 门 仍然 管理 分 析 沙 盘 
盘 将 进行 有 针对 性 的 设计 ， 以 启用 强大 的 分 析 能 力 ， 同 时 还 能 被 集中 管理 和 保护 。 沙 盘 
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为 工作 区 ， 旨 在 使 团队 以 一 种 受 控 的 方式 来 探索 数据 集 ， 通 常 不 用 于 企业 级 的 财务 报表 和 
销售 报告 。 
很 多 时 候 , 分析 沙盘 利用 数据 库 内 处 理 ( in-database processing ) 式 的 高 性 能 计算 一 一 分 析 都 





















































是 在 数据 库 内 部 进行 。 在 数据 库 内 部 运行 分 析 可 以 提供 更 好 的 分 析 性 能 ， 因 为 省 去 了 将 数据 拷贝 
到 位 于 其 他 某 地 的 分 析 工 具 的 步骤。 数据 库 内 分 析 (将 在 第 11 章 进 一 步 讨 论 ) 创建 同一 组 织 的 多 
个 数据 源 之 间 的 关联 ， 节 省 了 以 个 体 为 基础 创建 这 些 数据 提要 的 时 间 。 用 于 深入 分 析 的 数据 库 处 
理 加 速 了 开发 和 执行 一 个 新 分 析 模 型 所 用 的 周转 时 间 ， 同 时 减少 〈 但 是 没有 消除 ) 了 与 存放 在 了 
地 “影子 ”文件 系统 中 的 数据 相关 的 成 本 。 此 外 ,不 同 于 EDW 中 典型 的 结构 化 数据 ， 分 析 沙 盘 
可 以 容纳 更 多 样 性 的 数据 ， 比 如 ， 原 始 数据 、 文 本 数据 和 其 他 类 型 的 非 结构 化 数据 ， 而 且 不 会 与 
关键 的 生产 数据 库 形成 干扰 。 表 1.1 简要 地 描述 了 本 节 提 到 的 数据 存储 库 的 特征 。 


表 1.1 数据 存储 库 的 类 型 〈 站 在 分 析 员 的 角度 ) 
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数据 仓库 特征 
电子 表格 和 数据 集 市 电子 表格 程序 和 低 容量 的 数据 库 
(spreadmarts ) 分 析 依 赖 数 据 提取 











在 专用 空间 中 的 集中 式 数据 容器 

支持 商业 智能 和 报表 ， 但 限制 强大 的 分 析 功 能 

分 析 员 依靠 IT 部 门 和 DBA 来 访问 和 变更 数据 模式 

分 析 师 必须 花费 很 长 时 间 从 多 个 数据 源 中 抽取 数据 ， 然 后 整合 和 分 解 
从 多 个 数据 源 收集 的 数据 资产 和 用 于 分 析 的 技术 














数据 仓库 (Data Warehouse) 

















































































































n SAE SESE TROY. AGREED EAU 
the? 降低 数据 复制 到 “影子 ”文件 系统 产生 的 成 本 和 风险 














“分 析 员 拥有 ”而 非 “DBA WA” 


在 大 数据 分 析 项 目 中 ， 需 要 考虑 几 件 事情 以 确保 方法 与 预期 的 目标 相 匹 配 。 由 于 大 数据 所 
具有 的 特征 ， 这 些 项 目 长 常用 于 为 高 价值 但 是 处 理 复 杂 度 较 高 的 战略 决策 提供 支持 。 由 于 数据 
量 相当 大 ， 结 构 较为 复杂 , 所 以 在 这 种 环境 中 使 用 的 技术 必须 具备 迭代 性 (iterative ) 和 灵活 性 。 
快速 是 复杂 的 数据 分 析 需 要 高 否 吐 量 的 网 络 连接 ， 并 考虑 一 个 可 接受 的 延迟 量 。 例 如 ， 开 发 一 
款 用 于 网 站 的 实时 产品 推荐 系统 比 开发 一 款 近 实时 推荐 系统 需要 更 高 的 系统 需求 ， 因 为 近 实 时 
推荐 系统 在 提供 可 接受 的 性 能 的 同时 ， 延 迟 只 是 稍 大 一 点 点 ， 但 是 部 署 成 本 更 低 。 我 们 需要 使 
] 不 同 的 方法 来 应 对 分 析 中 的 挑战 ， 下 一 节 将 继续 讨论 这 个 主题 。 


1.2 ”分析 的 实践 状态 


所 示 。 




























































































































































































































































































































































































































































































































































































































































































































































































t 更 具 分 析 能 力 和 被 数据 驱动 ， 如 表 1.2 
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1.2 ”分析 的 实践 状态 


表 1.2 高 级 分 析 的 商业 驱动 因素 

















































































































商业 驱动 力 案例 
优化 业务 操作 销售 、 报 价 、 利 润 率 、 效 率 
识别 业务 风险 客户 流失 、 欺 诈 、 违 约 
预测 新 的 商业 机 会 增值 销售 、 追 加 销售 、 最 佳 的 潜在 新 客户 
遵守 法 律 或 法 规 要 求 反 洗 钱 、 公 平 信贷 、 巴 塞 尔 协议 IL-III[、 塞 班 斯 -奥克斯 利 法 案 (SOX) 
K 1.2 列 出 了 组 织 机 构 需 要 应 对 的 4 种 常见 的 商业 问题 ， 在 这 4 种 问题 中 ， 组 织 机 构 有 机 
^ X 些 执行 标准 的 报告 ， 还 可 以 





























会 使 用 高 级 分 析 技 术 来 创造 竞争 优势 。 在 这 些 领 域 中 ， 组 织 除了 可 上 
使 用 高 级 的 分 析 技 术 来 优化 流程 ， 并 且 从 这 些 常 用 的 任务 中 获取 更 多 的 价值 。 前 面 3 个 案例 都 
不 是 新 的 问题 。 组 织 机 构 多 年 来 都 一 直 在 努力 避免 客户 的 流失 、 增 加 销售 业绩 和 追加 销售 客户 。 
融合 大 数据 和 高 级 分 析 技 术 是 i3, i 问题 找到 更 有 效 的 解决 途经 。 
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最 后 一 个 案例 描述 了 新 兴 的 监管 需求 。 大 部 分 法 律 和 法 规 都 已 经 存在 了 几 十 年 ， 但 每 年 都 会 增 
加 新 的 需求 ， 这 表明 组 织 机 构 有 额外 的 复杂 度 和 数据 需求 。 反 洗钱 (AML) 和 预防 欺诈 的 相 
法 律 需要 高 级 分 析 技术 来 妥善 处 理 和 管理 。 

















124 商业 智能 VS 数据 科学 


K 1.2 中 列 出 的 4 种 商业 驱动 力 (Business driver) 需要 不 同 的 分 析 技术 来 正确 地 解决 。 虽 
然 有 关 分 析 的 文章 很 多 ， 但 是 区 分 商业 智能 和 数据 科学 非常 重要 。 如 图 1.8 所 示 ， 有 几 种 方法 
可 以 比较 这 两 种 数据 分 析 类 型 。 
来 评估 所 执行 的 分 析 类 型 的 方法 是 ， 检 查 时 间 范 围 以 及 正在 使 用 的 分 析 方 法 的 类 
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型 。 商 业 智 能 ( Business Intelligence ) 主要 提供 关于 现在 和 过 去 时 期 的 商业 问题 的 报表 、 仪 表 
WX (Dashboard ) 和 查询 。 商 业 智 能 系统 使 得 用 户 可 以 轻易 获取 季 初 到 现在 ( quarter-to-date ) 
的 收入 、 季 度 目 标的 完成 情况 ， 以 及 某 一 产品 在 某 一 季度 或 者 某 一 年 的 销量 数据 。 这 些 问 题 
往往 都 是 预 设 或 者 可 预期 的 ， 用 于 解释 当前 或 者 过 去 的 行为 ， 通 常用 来 整合 历史 数据 并 以 某 
方式 进行 分 组 。 商 业 智能 主要 是 提供 一 些 事 后 见解 和 观点 ， 一 般 用 于 解释 事件 发 生 的 “时 
间 ” 和 “地 点 ”。 
7HE ， 数 据 科 学 (Data Science) 主要 是 用 更 有 前 脆性 和 探索 性 的 方式 来 使 用 分 类 数 











































































































据 ， 着 重 分 析 当 前 的 情况 ， 为 未 来 的 决策 提供 数据 参考 。 数 据 科学 不 是 简单 地 汇集 历史 数据 
来 看 上 季度 销售 了 多 少 产 品 ， 而 是 团队 利用 数据 科学 技术 ( 例如 时 间 序 列 分 析 ， 第 8 BORER 

预测 未 来 产品 的 销售 和 收入 情况 ， 而 这 种 预测 较 之 简单 地 依靠 趋势 线 更 为 精准 。 
此 外 ,数据 科学 本 质 上 往往 更 具有 探索 性 ， 可 以 使 用 场景 优化 来 处 理 更 开放 式 的 问题 。 这 种 
方法 可 以 通过 深度 地 分 析 当 前 活动 ， 来 预测 未 来 的 事件 ,一般 用 来 研究 事件 是 “如 何 ” 以 及 
“为 什么 ”发 生 的 。 
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另外 ， 商 业 智能 需要 以 行 和 列 组 织 的 高 度 结构 化 数据 才能 获得 准确 的 报表 ， 而 数据 科学 项 
可 以 使 用 多 种 类 型 的 数据 源 ， 包 括 大 型 或 者 非常 规 的 数据 集 。 根 据 不 同 的 目标 ， 组 织 机 构 5 
闪 自 行 选 择 相应 的 分 析 手 段 。 比 如 ， 如 果 要 生成 报表 、 创 建 仪表 盘 (dashboard ) RAITHE 
的 可 视 化 ， 可 以 选择 商业 智能 项 目 。 如 果 需 要 用 分 类 或 者 不 同 的 数据 集 进行 更 为 复杂 的 分 析 ， 
可 以 选择 数据 科学 项 目 。 





































































































































































































































































































解释 的 预测 性 分 析 和 数据 挖掘 (数据 科学 ) 
T * Optimization, predictive modeling, 
典型 的 forecasting, statistical analysis 
技术 和 * Structured/unstructured data, many 
数据 类 型 types of sources, very large datasets 


典型 的 * Standard and ad hoe reporting, dashboards, 
" alerts, queries, details on demand 









* What if .7 
* What's the optimal scenario for our business? 
* What will happen next? What if these trends 

continue? Why is this happening? 











e= eee = 






数据 科学 


ses = 






^om mom mom * 


















分 析 技术 和 * Structured data, traditional sources, 
方法 数据 类 型 manageable datasets 
4 Fm m ee * What happened last quarter? 
1 常见 的 问题 | * How many units sold? 
' 商业 智能 * Where is the problem? In which situations? 
`» 
^"--—Á a Ld 
探索 的 


过 去 时 间 未 来 





R] 


1.8 ”数据 科学 与 商业 智能 的 对 比 











1.2.2 ”当前 分 析 架 构 


前 面 讲 到 ， 数 据 科 信 需要 专门 建立 的 工作 台 对 数据 做 实验 ， 该 工作 台 应 具有 灵活 和 和 敏 掉 
的 数据 染 构 。 大 多 数组 织 机 构 都 拥有 数 据 仓库 ， 用 于 为 传统 的 报表 和 简单 的 数据 分 析 行 
好 的 文 持 ， 但 是 不 能 文 持 强 大 的 分 析 功 能 。 本 节 将 介绍 一 种 企业 中 存在 的 典型 的 数据 分 析 架 构 。 
图 1.9 所 示 为 一 种 典型 的 数据 架构 ， 以 及 数据 科学 家 和 试图 进行 高 级 分 析 的 其 他 人 员 所 证 
临 的 几 种 挑战 。 本 节 将 讲解 数据 科学 家 所 使 用 的 数据 ， 以 及 数据 科学 家 如 何 融 入 获取 数据 以 便 
在 项 目 中 进行 分 析 的 流程 。 
1. 为 了 将 数据 源 加 载 到 数据 仓库 , 我 们 要 先 理 解数 据 , 然后 结构 化 数 扫 
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1.2 分析 的 实践 状态 


























据 类 型 定义 来 标准 化 数据 。 虽 然 这 种 集中 化 可 以 为 关键 数据 提供 安全 、 备 份 和 故障 转移 
功能 , 但 是 在 数据 进入 这 种 受 控 环境 之 前 , 必须 经 过 大 量 的 预 处 理 和 检查 点 ( checkpoint ) 











































































































处 理 ， 这 样 将 导致 数据 不 适合 数据 探索 和 和 帮 代 分 析 。 











图 1.9 典型 的 分 析 架 构 


2. 由 于 EDW 对 数据 的 严格 控制 ， 商 业 用 户 往往 为 了 适应 灵活 的 分 析 需 求 而 创建 额外 的 部 
门 仓库 和 本 地 数据 集 市 。 这 些 本 地 数据 集 市 可 能 没有 与 主 EDW 一 致 的 安全 性 和 结构 的 
约束 ， 从 而 允许 用 户 进行 更 深入 的 分 析 。 但 是 , 这 些 本 地 系统 通常 处 于 孤立 状态 ,不 会 
保持 相互 间 的 数据 同步 或 者 与 其 他 数据 存储 进行 集成 ， 甚 至 可 能 没有 进行 备份 。 
i Jk, ， 数 据 将 被 企业 中 的 应 用 程序 读 取 ， 以 便 进 行商 业 智 能 分 析 和 报告 。 这 




















































































































































































































































































































al 


据 仓 库 和 储存 库 中 获取 关键 数据 的 高 优先 级 业务 操作 流程 。 
流 结尾 部 分 , 分 析 员 获得 用 于 下 游 分 析 的 数据 。 因 为 用 户 一 般 不 能 在 生产 数据 库 
3 定义 或 者 密集 的 数据 分 析 , 数据 分 析 员 会 从 EDW 中 提取 数据 , 然后 使 用 了 R 或 
者 其 他 本 地 分 析 工 具 进 行 离线 数据 分 析 。 很 多 情况 下 , 这 些 工 具 是 对 数据 样本 进行 内 存 
分 析 ， 而 不 是 对 整个 数据 集 进 行 分 析 。 因 为 这 些 分 析 是 基于 从 EDW 提取 的 数据 并 且 在 
EDW 外 进行 ， 所 以 分 析 的 结果 以 及 任何 与 数据 质量 和 异常 相关 的 洞察 ， 都 极 少 被 反馈 
可 主 数据 存储 库 。 
由 于 严格 的 验证 和 数据 格式 化 ， 导 至 EDW 中 新 的 数据 源 积 累 的 速度 很 慢 ， 数 据 移 到 EDW 
的 速度 也 很 慢 ， 这 样 导致 数据 模式 的 变化 也 很 慢 。 部 门 级 数据 仓库 ( Departmental data 
warehouses ) 在 最 初 可 能 只 是 针对 特定 的 目的 和 业务 需求 而 设计 , 但 随 着 时 间 的 推移 , 部 门 数据 
仓库 内 的 数据 越 来 越 多 ， 其 中 一 些 数据 可 能 被 强制 转换 成 现 有 的 模式 ， 以 启用 商业 智能 并 创建 
OLAP 数据 库 进行 分 析 和 报告 。 昌 然 EDW 实现 了 生成 报表 的 目标 ， 有 时 还 能 创建 仪表 盘 
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1.2 分 析 的 实践 状态 











































































































e 智能 设备 ， 包 括 智能 电网 、 智 能 建筑 等 公共 和 基础 设施 中 传感器 采集 的 信息 。 
e MERIT 设备 ,包括 使 用 的 无 线 电 频率 识别 (RFID ) 阅读 器 、GPS 导航 系统 和 地 震 信 












































































































































大 以 TB 来 衡量 以 PB 来 衡量 以 EB 来 衡量 
1TB=1.000GB 1PB=1.000TB 1EB=1.000PB 
[r9] 
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1990s 2000s 2010s 
(RDBMS 和 数据 仓库 ) (内 容 和 数字 资产 管理 ) (NO-SQL 和 键 值 ) 


1.0 数据 的 演变 和 大 数据 源 的 增长 
未 来 ， 大 数据 中 越 来 越 多 的 数据 源 将 产生 大 量 的 信息 ， 这 些 海量 的 数据 都 需要 高 级 的 分 析 
方法 ， 也 需要 新 的 市 场 玩家 来 利用 这 些 机 会 和 新 的 市 场 动态 ， 下 一 节 将 详细 讨论 。 
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1.2.4 ”新 的 大 数据 生态 系统 和 新 的 分 析 方 法 


由 于 组 织 机 构 和 数据 收集 者 意识 到 个 人 数据 中 丝 含 着 巨大 的 价值 ， 所 以 就 出 现 了 一 种 新 的 
经 济 。 随 着 新 兴 数 字 经 济 不 断 的 发 展 ， 市 场 就 出 现 了 数据 厂商 和 数据 清洁 服务 商 。 数 据 清 洁 服 
务 商 使 用 众 包 ( 比如， 亚马逊 Mechanical Turk 平台 和 GalaxyZoo 平台 ) 的 方式 来 测试 机 器 学 习 
技术 的 成 果 。 此 外 ， 其 他 一 些 数据 厂商 对 开源 工具 简单 重新 打包 并 增加 附加 价值 ， 然 后 将 这 些 
工具 拿 到 市 场 上 销售 。Cloudera 、Hortonworks 和 Pivotal 这 些 厂 商 就 是 在 开源 框架 Hadoop 的 
础 上 提供 增值 服务 。 
随 着 新 的 大 数据 生态 系统 初步 成 型 ， 这 其 中 有 4 种 主要 的 生态 参与 者 ， 如 图 1.11 所 示 。 
e 数据 设备 [如 图 1.11 中 第 1 部 分 所 示 ] 和 “传感器 网 络 ” 从 多 个 位 置 收集 数据 ， 并 不 断 产 
生 与 这 些 数据 相关 的 新 数据 。 针 对 所 收集 的 每 GB (gigabyte ) 数据 ， 最 终 大 约会 额外 
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产生 1 个 PB (petabyte ) 大 小 的 关于 这 些 数据 的 新 数据 [2] 
图 ”例如 ， 当 人 们 使 用 PC、 游 戏 机 或 智能 手机 玩 在 线 视频 游戏 时 ， 视 频 游 戏 提供 商会 
抓 取 游戏 玩家 的 技能 和 等 级 相关 数据 , 并 通过 智能 系统 监控 并 记录 用 户 玩 游戏 的 时 
间 和 方式 。 通 过 利用 这 些 用 户 数据 ,游戏 提供 商 可 以 细 调 游戏 难度 ,向 用 户 推荐 6 
能 会 感 兴趣 的 其 他 相关 游戏 , 以 及 根据 用 户 的 年 龄 、 性 别 和 兴趣 为 游戏 角色 提供 额 
外 的 装备 和 优化 。 这 些 用 户 信息 可 以 存储 在 本 地 或 者 上 传 游戏 提供 商 ë 
分 析 用 户 的 游戏 习惯 和 识别 特定 用 户 属性 ， 从 而 增 大 增值 销售 和 追加 销售 的 机 会 。 
m ”智能 手机 提供 了 另 一 种 丰富 的 数据 源 。 除 了 基本 的 短信 息 和 通话 功能 , 智能 手机 还 
可 以 存储 和 传输 用 户 上 网 、 使 用 短信 息 和 实时 位 置 等 元 数据 信息 。 当 用 于 路 况 分 析 
时 , 乘 车 者 的 智能 手机 产生 的 元 数据 信息 可 以 用 来 分 析 追 踪 汽 车 的 行驶 速度 或 者 每 
忙 路 段 的 交通 拥挤 情况 。 通 过 这 种 方式 ， 车 载 GPS 设备 可 以 为 司机 提供 实时 路 况 
更 新 ， 并 提供 替代 路 线 以 躲 过 拥堵 路 段 。 
四 ”零售 商场 办 理 的 会 员 卡 不 只 记录 了 消费 者 每 次 的 消费 金额 , 还 会 记录 顾客 每 次 访问 
的 商店 位 置 、 购 买 商品 的 种 类 、 最 常 购 物 的 商店 以 及 一 起 购买 的 商品 组 合 。 通 过 收 
集 这 些 数据 可 以 洞悉 用 户 的 购物 和 旅行 习惯 ， 以 及 判断 特定 促销 广告 是 否 会 奏效 。 
e 数据 收集 器 [如 图 1.11 中 第 2 部 分 标记 的 椭圆 形 ] 包 括 从 设备 和 用 户 那 里 收集 数据 的 样本 
实体 。 
加 ”有 线 电 视 供 应 商 , 他 们 收集 的 数据 包括 用 户 的 观看 记录 、 用 户 会 和 不 会 付费 观看 的 
点 播 电 视频 道 ， 以 及 用 户 愿 意 花 多 少 钱 观 看 优质 节目 内 容 。 
四 ”零售 商店 ， 通 过 购物 车 中 带 有 的 RFID 芯片 追踪 消费 者 的 购物 路 线 ， 利 用 RFID 45 
手中 收集 的 地 理 空间 数据 可 以 分 析出 哪些 商品 吸引 了 最 多 人 驻足 关注 。 
e 数据 整合 者 (如 图 1.11 中 第 3 部 分 标记 的 椭圆 形 ) 利用 “传感器 网 络 ” 或 “ 物 联网 ” 
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收集 的 数据 创造 价值 。 这 些 组 织 机 构 汇 总 和 解析 设备 数据 和 由 政府 机 构 、 零 售 商店 和 
网 站 等 收集 的 设备 使 用 信息 ， 然 后 将 数据 转换 和 打包 成 产品 出 售 。 比 如 可 以 出 售 给 中 
间 商 ， 后 者 再 利用 这 些 数据 锁定 特定 市 场 广告 营销 的 目标 受众 。 













































































e 数据 使 用 者 和 购买 者 〈 如 图 1.11 中 第 4 部 分 所 示 ) 

集 和 汇总 的 数据 。 

田 ”零售 银行 会 想 要 了 解 哪些 客户 群体 最 有 可 能 申请 二 次 抵 半 或 者 房屋 交 
为 此 , 零售 银行 可 以 从 数据 整合 者 于 里 购 S 


直接 受益 于 数据 价值 链 中 其 他 人 收 























































































































































































































































































































































































































































































































包括 生活 在 特定 区 域 的 人 口 统计 情况 ; 负担 一 定 债务 的 人 群 , 这 些 人 群 拥有 可 靠 的 
言 用 评分 〈 或 者 其 他 特征 ， 比 如 能 够 按时 文 付 账单 和 拥有 储蓄 账户 )， 可 以 确保 放 
贷 的 安全 ; 通过 搜索 网 站 查找 清偿 债务 或 者 房屋 改造 项 目 等 相关 信息 的 人 群 。 在 大 
数据 出 现 之 前 ， 上 述 精 准 市 场 营销 行为 由 于 缺乏 信息 和 高 性 能 技术 而 面临 诸多 挑 




































































Hk. 而 现在 ,一 切 变 得 可 能 。 
国人 们 可 以 通过 Hadoop 这 类 技术 对 社交 媒体 网 站 上 的 非 结 构 化 和 文本 数据 进行 自然 





































































































1.3 ”新 的 大 数据 生态 系统 中 的 关键 角色 














语言 分 处 理 , 来 预测 公众 对 总 统 竞选 之 类 事件 的 反应 。 比 如 ， 人 们 可 以 通过 分 析 相 
关 博 客 和 线 上 评论 来 了 解 公众 对 候选 人 的 态度 。 类 似 地 ， 人 们 可 以 通过 分 析 社 交 媒 
本 上 的 讨论 来 判断 受 由 风 影 响 的 区 域 和 飓风 的 移动 轨迹 , 以 便 追 踪 和 防范 自然 灾害 
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图 1.11 新 兴 的 大 数据 生态 系统 


在 这 个 新 兴 的 大 数据 生态 系统 中 ， 数 据 类 型 和 相关 的 市 场 动态 变动 极 大 。 这 些 数据 集 包 括 
传感器 数据 、 文 本 文件 、 结 构 化 数据 集 和 社交 媒体 数据 。 如 果 在 传统 EDW 中 ， 这 些 数据 集 将 
无 法 被 处 理 ， 因 为 EDW 主要 用 于 简单 报表 、 仪 表盘 和 集中 管理 。 因 此 ， 大 数据 相关 的 问题 和 
项 目 需要 使 用 不 同 的 方法 来 处 理 。 

分 析 员 需要 与 IT 部 门 、DBA 的 配合 才能 获得 分 析 沙 盘 需 要 的 数据 。 一 个 典型 的 分 析 沙 盘 
包括 原始 数据 、 聚 合 数据 和 多 种 结构 类 型 的 数据 。 沙 盘 使 强大 的 数据 勘探 变 得 可 i 
有 经 验 的 用 户 来 使 用 和 发 挥 沙盘 环境 中 的 数据 优势 。 


1.3 ”新 的 大 数据 生态 系统 中 的 关键 角色 


在 1.2.4 节 介 绍 的 大 数据 生态 系统 中 , 新 的 生态 参与 者 已 经 涌现 , 进行 数据 的 策划 (curate )、 
存储 、 生 产 、 清 除 和 处 理 。 此 外 ， 为 了 应 对 日 益 复 杂 的 业务 问题 ， 就 需要 采用 更 先进 的 分 析 技 
术 ， 这 就 推动 了 新 角色 、 新 技术 平台 和 新 分 析 方法 的 出 现 。 本 节 将 介绍 可 以 解决 这 些 需求 的 新 
色 ， 在 后 续 章节 还 会 介绍 一 些 分 析 方 法 和 技术 平台 。 

如 图 1.12 所 示 , 大 数据 生态 系统 需要 三 类 角色 。 在 麦肯锡 2011 4 
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第 1 章 ”大 数据 分 析 介绍 

















研究 ”报告 中 对 这 些 新 角色 进行 过 描述 。 


新 的 数据 生态 系统 中 的 3 类 关键 橘 色 


数据 科学 家 
深层 次 分 析 人 才 4m 预 估 的 美国 人 才 
缺口 : 140,000 to 190,000 









































4m 预 佑 的 美国 人 才 


数据 专业 人 员 缺口 : 1.5 million 





技术 和 数据 支持 人 员 





ik: 该 图 反映 的 是 美国 在 201 年 的 预 估 人 才 缺 口 ， 其 来 自 于 麦肯锡 于 2011 年 5 月 的 文章 


“Big Data: The Next Frontier for Innovation, Competition, and Productivity" 


112 新 大 数据 生态 系统 的 关键 角色 


第 1 类 : 深层 分 析 人 才 。 这 类 人 才 精 通 技 术 ， 具 有 较 强 的 分 析 能 力 。 他 们 拥有 多 项 技能 ， 
具有 处 理 原 始 数据 和 非 结构 化 数据 的 能 力 ， 并 且 可 以 应 用 复杂 的 大 规模 分 析 技 术 。 这 类 人 深入 
学 习 过 各 种 量化 学 科 ， 比 如 数学 、 统 计 学 和 机 器 学 习 。 这 类 人 所 做 的 工作 一 般 是 在 一 个 强大 的 
分 析 沙 箱 或 者 工作 区 中 进行 大 规模 的 数据 分 析 实 验 。 符 合 这 个 群体 的 职业 包括 统计 学 家 、 经 济 
学 家 、 数 学 家 和 新 兴 的 数据 科学 家 。 
麦肯锡 研究 报告 预测 ， 到 2018 年 美国 将 会 
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14 万 到 19 万 个 深层 分 析 人 才 的 缺口 。 这 并 不 
是 指 市 场所 需要 的 深层 分 析 人 才 的 总 量 ， 而 是 表示 市 场 人 才 需 求 量 和 市 场 可 用 人 才 的 缺口 。 这 
个 预测 只 是 反映 了 美国 人 才 的 短缺 ， 相 信 这 个 数字 在 全 球 范围 内 会 更 大 。 
第 2 类 : 数据 专业 人 员 。 这 类 人 才 技 术 深度 较 浅 , 但 是 具有 统计 学 或 机 器 学 习 的 基本 知识 ， 
嘟 些 使 用 高 级 分 析 可 以 回答 的 关键 问题 。 该 组 成 员 通 常 具 有 处 理 数据 的 基本 知识 ， 而 
了 解 一 部 分 数据 科学 家 和 其 他 深层 分 析 人 员 所 做 的 工作 。 数 据 专 业 人 员 包 括 金融 分 析 师 、 市 
场 研究 分 析 师 、 生 命 科 学 家 、 营 运 经 理 以 及 业务 和 职能 部 门 的 经 理 。 
麦肯锡 研究 报告 预测 ,到 2018 年 美国 将 会 有 150 万 数据 专业 人 员 的 缺口 ， 这 个 数字 是 深层 
HAA IRONS 10 倍 。 经 理 、 董 事 和 领导 者 们 需要 开始 具备 一 定 的 数据 专业 专员 的 素质 ， 这 样 
他 们 才能 拥有 更 宽阔 的 视野 ， 知 道 哪些 问题 可 以 使 用 数据 来 解决 。 
3 类 : 技术 和 数据 文 持 人 员 。 这 类 人 才 掌 握 的 专业 技术 知识 可 以 用 于 支持 分 析 项 目 ， 斧 
置 和 管理 分 析 沙 箱 ， 以 及 管理 企业 和 其 他 组 织 内 的 大 规模 数据 分 析 架 构 。 这 类 人 员 需 要 
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1.3 ”新 的 大 数据 生态 系统 中 的 关键 角色 





























具备 计算 机 工程 、 编 程 和 数据 库 管理 相关 的 技能 。 
这 三 类 人 群 只 有 紧密 合作 才能 解决 大 数据 所 融 来 的 复杂 挑战 。 大 多 数组 织 机 构 对 报告 中 提 
到 的 后 两 类 人 比较 熟悉 ， 但 是 对 第 一 类 人 【深层 分 析 人 才 ) 了 解 不 多 。 关 于 深层 分 析 人 才 ， 本 
节 将 重点 介绍 数据 科学 家 这 一 新 的 角色 ， 讲 解数 据 科 学 家 具体 要 做 什么 和 所 需要 掌握 的 技能 。 
相 是 数据 科学 家 经 常 进行 的 3 类 任务 。 
e 将 业务 的 挑战 转化 为 分 析 的 问题 。 具 体 而 言 ， 就 是 剖析 业务 问题 ， 考 虑 问题 核心 ， 并 判断 
那 种 分 析 方 法 可 以 用 来 解决 问题 。 这 个 概念 将 在 第 2 音 中 进一步 讲解 。 
e 设计、 实施、 部 署 大 数据 的 统计 模型 和 数据 挖掘 技术 。 这 类 任务 也 是 通常 人 们 理解 中 
的 数据 科学 家 的 职责 : 运用 复杂 或 高 级 的 分 析 方法 和 数据 来 解决 各 种 业务 问题 。 本 书 
第 3 SERIE 11 章 将 详细 介绍 业界 流行 的 几 种 分 析 技术 和 工具 。 
@ 产生 能 被 用 于 指导 实践 的 洞 见 。 需 要 注意 的 是 ， 使 用 高 级 方法 解决 数据 问题 本 身 不 一 
定 会 带 来 新 的 商业 价值 。 重 要 的 是 要 能 够 从 数据 中 分 析出 有 效 见 解 并 进行 有 效 传播 。 
第 12 章 将 简 述 如 何 实 现 这 一 点 。 
数据 科学 家 通常 应 该 具备 以 下 5 项 主要 技能 和 行为 特征 ， 如 图 1.13 所 示 。 
e 量化 分 析 技能 : 比如 数学 或 者 统计 学 。 
e ”技术 能 力 : 比如 软件 工程 、 机 器 学 习 和 编程 拉 能 。 
e ”怀疑 性 的 和 批判 性 的 思维 : 数据 科学 家 需要 以 全 面 的 方式 仔细 检查 自己 的 工作 ， 这 一 
点 非常 重要 。 
e ”好 奇 心 和 创造 力 : 数据 科学 家 应 该 热衷 于 数据 ， 寻 求 创造 性 的 方式 来 解决 和 描述 信息 。 
e ”沟通 和 协作 能 力 : 数据 科学 家 必须 能 够 清晰 地 图 述 数 据 项 目 能 带 来 的 商业 价值 ， 并 具 
SAMA 包括 项 目 出 资 人 和 利益 相关 者 ) 协作 的 能 力 。 
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1.13 ”数据 科学 家 的 形象 
一 般 而 言 ， 数 据 科 学 家 习惯 于 使 用 上 述 技能 来 获取 、 管 理 、 分 析 和 了 可视化 数据 ， 然 后 再 就 
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第 1 章 ”大 数据 分 析 介 绍 









































数据 讲 令 人 信服 的 故事 。 下 节 将 讲解 几 个 大 数据 分 析 案 例 ， 看 看 数据 科学 家 如 何 利用 大 数据 来 
创造 新 价值 。 


1.4 大 数据 分 析 案 例 


在 介绍 完 大 数据 新 兴 生 态 系统 和 支持 其 发 展 需要 的 新 角色 后 ， 本 节 将 介绍 大 数据 在 不 同 领 
域 中 应 用 的 3 个 例子 : 零售 业 、IT 基础 设施 和 社交 媒体 。 
前 面 提 到 ， 大 数据 带 来 了 很 多 改进 销售 和 市 场 分 析 的 机 会 。 美 国 零售 商 Target 便 是 这 样 的 
例子 。 作 者 Charles Duhigg 在 他 的 The Power of Habit 一 书 [4] 中 介绍 了 Target 如 何 使 用 大 数据 和 
TRAA 法 来 提高 销售 收入 。 在 分 析 了 消费 者 的 购买 行为 后 ，Target 公司 的 统计 人 员 发 现 零 
很 大 的 一 块 销售 收入 来 源 于 下 面 的 三 大 主要 事件 。 
e 结婚 ， 这 时 人 们 会 倾向 于 购买 很 多 新 东西 。 
e 离婚， 这 时 人 人 们 也 会 购买 新 产品 ， 并 且 改 变 自 己 的 消费 习惯 。 

e 怀孕 ， 这 时 人 们 会 购买 许多 新 东西 ， 并 且 都 是 非常 迫切 地 购买 。 

分 析 人 员 还 发 现在 上 述 三 大 事件 中 ， 人 怀孕 是 最 让 商家 赚钱 的 事件 。 通 过 从 购物 者 导 上 收集 
的 购物 数据 ，Target 公司 就 可 以 预测 哪些 购物 者 可 能 已 经 怀孕 。 有 一 次 ，Target 公司 甚至 比 一 位 
女 顾客 的 家 人 更 早 地 判断 出 这 位 女 顾 客 已 经 怀孕 [5]。 根 据 这 类 分 析 结 果 ，Target 公司 会 对 已 经 
怀孕 的 顾客 提供 特定 的 优惠 券 和 激励 机 制 。 事 实 上 ，Target 公司 的 分 析 机 制 不 但 可 以 判断 某 个 
顾客 是 否 已 经 怀孕 ， 还 可 以 知道 顾客 已 经 怀孕 几 个 月 了 。 这 样 Target 公司 就 可 以 更 好 地 管理 和 
调整 自己 的 库存 ， 因 为 他 们 知道 在 每 9 一 10 个 月 的 周期 中 ， 每 个 月 大 臻 会 有 哪些 特定 孕期 商品 
的 需求 。 
另 一 个 大 数据 创新 的 例子 来 自 于 IT 基础 设备 领域 中 的 Hadoop[6]。Apache Hadoop 是 一 款 
源 框架 ， 人 允许 公司 以 高 度 并 行 的 方式 处 理 大 量 的 信息 。Hadoop 是 由 Doug Cutting 和 Mike 
Cafarella 在 2005 年 设计 和 实现 的 一 种 基于 MapReduce 计算 范式 的 系统 ， 被 用 于 处 理 各 种 不 同 
结构 的 数据 。 对 于 很 多 需要 涉及 大 量 或 者 难以 操作 的 非 传统 结构 数据 的 大 数据 项 目 来 说 ,Hadoop 
EE 一 种 理想 的 技术 框架 。Hadoop 的 主要 优点 之 一 是 采用 分 布 式 文件 系统 ,这 意味 着 它 可 以 使 用 
分 布 式 集群 服务 器 和 商用 硬件 来 处 理 大 量 数据 。 在 社交 媒体 领域 中 Hadoop 的 应 用 案例 很 常见 ， 
在 这 里 Hadoop 可 以 管理 事务 、 更 新 文字 信息 和 生成 数 百 万 用 户 间 的 社交 图 谱 。Twitter 和 
Facebook 每 天 都 会 产生 海量 的 非 结构 化 数据 ， 并 通过 Hadoop 和 其 生态 系统 中 的 工具 来 管理 这 
些 海量 数据 。 第 10 章 将 进一步 讲解 相关 内 容 。 
最 后 ， 通 过 社交 媒体 上 的 人 际 互动 可 以 获取 许多 新 的 见解 ， 而 其 中 列 含 着 巨大 的 商机 。 
LinkedIn 是 一 家 典型 的 数据 即 产品 的 公司 。 在 公司 创立 初期 ，LinkedIn 创始 人 Reid Hoffman 就 
意识 到 可 以 为 职场 专业 人 士 创建 一 个 社交 网 络 。 截 至 2014 年 > 
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E, LinkedIn 拥有 超过 2.5 亿 的 用 户 
账户 ， 并 增加 了 很 多 额外 的 功能 和 数据 相关 的 产品 ， 例 如 ， 招 聘 、 求 职 者 工具 、 广 告 和 社交 民 
谱 InMaps. InMaps 可 以 显示 用 户 的 职业 社交 网 络 图 谱 。 图 1.14 是 一 个 InMaps 可 视 化 案例 ， 使 
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导 LinkedIn 用 户 可 以 对 自己 联系 人 之 间 的 互联 关系 和 脉络 有 一 个 更 直观 的 认识 。 
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1.14 使 用 InMaps 得 到 的 用 户 社交 网 络 数据 可 视 化 


1.5 总 结 


大 数据 的 数据 来 源 五 花 八 门 ， 包 括 社 交 媒体 、 传 感 器 、 物 联网 、 视 频 监控 等 ， 许 多 数据 源 
甚至 在 数 年 前 都 还 未 受 关注 。 随 着 企业 努力 跟 上 不 断 变 化 的 市 场 需求 ， 一 些 公司 正 在 努力 寻求 
以 创新 的 方式 应 用 大 数据 ， 以 满足 不 断 增 长 的 业务 需求 和 解决 日 益 复 杂 的 问题 。 随 着 企业 不 断 
的 发 展 以 及 看 到 大 数据 中 蕴含 的 机 会 ， 他 们 试图 从 传统 的 商业 智能 分 析 ( 比如 ， 产 生 数 据 报表 
和 仪表 盘 )， 转 变 到 以 数据 科学 为 驱动 的 新 的 分 析 模 式 ， 来 解答 更 多 开放 日 复杂 的 问题 。 
然而 ， 企 业 需 要 使 用 新 的 数据 架构 才能 挖掘 大 数据 中 缠 含 的 商机 ， 这 些 新 的 数据 架构 包括 
aH EE (Analytic sandboxes )、 新 的 工作 方式 ， 以 及 具备 新 技能 的 员工 。 这 些 驱 动因 素 促 使 机 
构 开 始 建立 分 析 沙 盘 (Analytic sandboxes ) 和 数据 科学 团队 。 虽 然 有 些 公 司 中 已 经 拥有 数据 科 
学 家 ， 但 是 大 多 数 公司 缺乏 这 样 的 人 才 ， 因 为 数据 科学 家 的 人 才 人 缺口 正 变 得 越 变 越 大 ， 寻 找 
良 佣 合适 的 数据 科学 家 也 变 得 越 来 越 困 难 。 尽 管 如 此 ， 在 网 络 零售 、 医 疗 保健 、 基 因 科 学 、 新 
IT 基础 设施 以 及 社交 媒体 等 领域 的 组 织 机 构 ， 已 经 开始 以 创新 的 方式 利用 大 数据 。 








网 















































































































































































































































































































































































































































































































































































































































1， 大 数据 有 哪 三 个 特点 ?在 处 理 大 数据 时 主要 需要 考虑 哪些 因素 ? 
2， 什 么 是 分 析 沙 盘 ? 为 什么 分 析 沙盘 非常 重要 呢 ? 
3， 解 释 商 业 智能 ( BI) 和 数据 科学 之 间 的 区 
4. 请 面 
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; 述 当 前 分 析 染 构 在 应 对 数据 科学 时 面临 的 挑战 。 
.数据 科学 家 有 哪些 关键 的 技能 和 行为 特征 ? 
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不 同 于 许多 传统 的 商业 智能 项 目 和 数据 分 析 项 目 ， 数 据 科学 项 目 本 身 带 有 很 强 的 探索 性 。 1E 
于 这 种 原因 ， 我 们 有 必要 对 数据 科学 项 目 进行 标准 但 是 不 僵化 的 流程 管理 ， 以 确保 项 目 参与 者 
严谨 和 周全 的 方式 运行 项 目 ， 同 时 不 阻碍 项 目的 探索 性 

许多 问题 企 看 起 来 很 庞大 复杂 和 令 人 气候 ， 但 事实 上 可 以 被 分 解 成 一 系列 更 易 解决 的 小 问题 或 
者 分 阶段 解决 。 拥 有 良好 的 流程 可 以 确保 分 析 方法 的 全 面 性 和 可 重复 使 用 性 。 此 外 ， 在 流程 的 
阶段 应 集中 精力 和 时 间 去 明确 需要 被 解决 的 业务 问题 。 
在 数据 科学 项 目 初期 急于 收集 和 分 析 数 据 是 一 种 常见 的 错误 ， 这 容易 导致 没有 足够 的 时 间 
来 计划 和 仔细 检查 所 需要 的 工作 量 ， 不 能 很 好 地 理解 业务 需求 ， 其 至 无 法 正确 地 制定 需要 解决 
的 业务 问题 。 因 此 ， 项 目 参与 者 在 项 目 进展 到 中 期 阶段 可 能 会 惊讶 地 发 现 自己 采集 的 数据 无 法 

于 实现 项 目 发 起 人 实际 要 达成 的 目标 ， 或 者 发 现 自己 正在 解决 的 问题 并 不 是 项 目 发 起 人 真正 

可 能 面临 需要 返回 项 目 流程 初期 阶段 重新 开始 的 篮 众 局 
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兴趣 的 。 如 果 发 生 这 种 情 ; 
EE HAEA o 

通过 创建 和 记录 流程 可 以 让 项 目 变 得 更 加 严谨 ， 并 使 得 数据 科学 团队 的 项 目 产 出 的 可 信和 度 
变 得 更 高 。 此 外 ， 一 套 明 确 的 流程 可 以 便于 他 人 借鉴 和 采用 ， 而 其 中 的 方法 和 分 析 可 以 在 将 来 
或 者 新 成 员 加 入 团队 时 被 重复 利用 。 
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.1 数据 分 析 生 命 周 期 概述 


本 章 描述 的 数据 分 析 生 命 周 期 是 专门 为 大 数据 问题 和 数据 科学 项 目 而 设计 的 。 该 数据 分 析 
生命 周期 可 以 分 成 6 个 阶段 ， 而 项 目 工作 可 能 同时 分 处 于 其 中 的 若干 阶段 。 对 于 生命 周期 的 大 
多 数 阶段 ， 项 目 在 它们 之 间 的 移动 可 以 是 正 向 的 ， 也 可 以 是 有 反 向 的 。 也 就 是 说 ,项 目 既 可 以 从 
一 个 阶段 进行 到 下 一 个 阶段 ， 也 可 能 从 一 个 阶段 返回 到 上 一 个 阶段 。 项 目的 正 向 或 者 反 向 移动 
伴随 着 新 信息 的 出 现 和 项 目 团队 对 项 目的 更 多 了 解 而 发 生 ， 并 且 在 实际 中 并 不 罕见 。 这 种 生命 
周期 设计 使 得 项 目 实践 者 可 以 进行 反复 迭代 式 的 流程 管理 ， 并 最 终 推 动 项 目 工作 向 前 进行 。 
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2.1.1 一 个 成 功 分 析 项 目的 关键 角色 


近年 来 ， 人 们 开始 广泛 关注 数据 科学 家 这 种 新 的 角色 。2012 年 10 月 ， 哈 佛 商业 评论 报道 
了 一 篇 标题 为 “Data Scientist: The Sexiest Job of the 21st Century” ASCH, WHY XX DJ * Patil 



















































































































































































































































































和 Tom Davenport 介绍 了 数据 科学 家 这 种 新 的 角色 ， 以 及 如 何 找 到 和 雇用 数据 科学 家 。 此 外 ， 
越 来 越 多 的 每 年 举行 的 会 议 开始 专注 于 数据 科学 领域 的 创新 和 大 数据 的 相关 主题 。 尽 管 数 据 科 
学 家 这 一 新 角色 备 受 关注 ， 但 是 实际 上 一 个 高 效 的 数据 科学 团队 需要 拥有 7 种 关键 的 角色 才能 
成 功 地 运行 分 析 项 目 。 









































































































































到 2.1 描述 了 一 个 分 析 项 目 中 的 各 种 角色 和 关键 利益 相关 者 ， 他 们 在 成 功 的 分 析 项 目 中 各 自 扮 
演 着 重要 的 角色 。 虽 然 这 里 列举 了 7 种 角色 , 但 是 项 目 最 终 需 要 多 少 人 员 , 完全 取决 于 项 目的 范围 、 
组 织 结构 以 及 参与 者 的 具体 技能 。 例 如 ， 在 一 个 小 型 的 多 功能 团队 中 ， 可 能 只 需要 3 个 人 就 能 够 履 
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行 7 种 角色 。 但 是 在 一 个 大 型 的 项 目 中 ， 就 可 能 需要 20 个 以 上 人 员 参 与 到 项 目 中 。 下 面 是 7 种 角 
色 的 具体 定义 。 





































































e ! 
E21 一 个 成 功 分 析 项 目的 关键 角色 


e WEAR: 该 角色 对 业务 领域 非常 了 解 ， 并 日 通常 会 从 分 析 结 果 中 受益 。 他 可 以 就 项 目的 

背景 、 成 果 的 价值 ， 以 及 项 目 成 果 如 何 实 施 向 项 目 团队 提供 咨询 和 建议 。 通 常情 况 下 ， 

业务 分 析 师 、 直 线 经 理 ( line manager ) 或 者 项 目 领 域 的 资深 领域 专家 担任 这 种 角色 。 

e 项 目 发 起 人 : 该 角色 负责 项 目的 发 起 工作 。 他 会 为 项 目 提供 动力 和 要 求 ， 并 定义 核心 

业务 问题 。 通 常情 况 下 ， 该 角色 会 为 项 目 提供 资金 ， 设 置 项 目 事项 的 优先 级 ， 然 后 明 

确 项 目 预 期 结果 ， 最 后 评估 项 目 团队 最 终 成 果 的 价值 。 

e MAZE. 该 角色 负责 项 目 进 度 和 质量 ,确保 项 目 达 到 预期 目标 。 

e 商业 智能 分 析 师 : 该 角色 以 报表 的 视角 ， 基 于 对 数据 、 关 键 绩效 指标 ( KPI )、 关 刍 | 
务 指标 TARTE 深入 理解 来 提供 业务 领域 的 专业 知识 和 技能 。 他 通常 负责 创建 
仪表 板 和 报告 ， 并 了 解数 据 更 新 源 (data feed ) 和 来 源 (source )。 

e 数据 库 管 理 员 (DBA): 该 角色 负责 提供 和 配置 数据 库 环 境 ， 以 支持 工作 团队 的 分 析 需 
求 。 他 的 工作 职责 包括 提供 对 关键 数据 库 或 者 表格 的 访问 ， 并 确保 数据 资源 库 已 被 关 
联 相应 的 安全 级 别 。 

e 数据 工程 师 : 该 角色 需要 拥有 深厚 的 技术 功底 , 以 便 进行 数据 管理 和 数据 提取 时 的 SQL 
查询 优化 ， 并 负责 将 数据 导入 到 第 1 章 中 提 及 的 分 析 阔 箱 中 去 。 分 析 使 用 的 数据 库 由 
数据 库 管 理 员 (DBA ) 负责 安装 和 配置 ， 而 数据 工程 师 则 负责 执行 具体 的 数据 提取 工 

作 以 及 大 量 的 数据 操作 来 协助 分 析 工 作 。 他 会 和 数据 科学 家 紧密 合作 ， 确 保 以 正确 的 

方式 生成 用 作 分 析 的 数据 。 
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e 数据 科学 家 : 该 角色 在 分 析 技 术 、 数 据 建 模 以 及 针对 给 定 的 业务 问题 选取 有 效 的 分 析 
技术 方面 提供 专业 知识 和 技能 。 他 使 用 项 目的 可 用 数据 来 设计 和 执行 分 析 方案 ， 确 保 
整体 分 析 目 标 能 够 实现 。 

虽然 上 述 大 多 数 的 角色 并 不 是 新 出 现 的 ， 但 是 随 着 天 数据 的 发 展 ， 最 后 两 种 角色 〈 数据 工 

程 师 和 数据 科学 家 ) 正在 变 得 越 来 越 流行 和 供不应求 2] 。 


2.1.2 ”数据 分 析 生 命 周期 的 背景 和 概述 
数据 分 析 生 命 周期 定义 了 从 项 目 开 始 到 项 目 结束 整个 分 析 流 程 的 最 佳 实践 ， 它 脱胎 于 数 和 
分 析 和 决策 科学 领域 中 的 成 熟 方 法 ， 并 建立 在 广泛 收集 了 数据 科学 家 的 反馈 参考 了 其 他 成 
训 流 程 的 基础 上 。 以 下 是 几 种 被 参考 的 流程 。 
€ Scientific method[3] ， 一 种 已 经 使 用 了 几 百 年 的 关于 思考 和 解构 问题 的 可 靠 方法 框架 。 
[中 最 有 价值 的 理念 之 一 是 先 形 成 假设 ， 然 后 找到 方法 进行 测试 。 
€ CRISP-DM[4] 是 一 种 流行 的 数据 挖 气 方 法 ， 为 如 何 设 定 分 析 问 题 提 供 了 有 用 参考 。 
€ Tom Davenport 的 DELTA 框架 [5]: 该 框架 提供 ] ] 于 数据 分 析 项 目的 方法 , 其 中 
涉及 组 织 技能 、 数 据 集 以 及 领导 者 的 参与 。 
€ Doug Hubbard 的 应 用 信息 经 济 学 (Applied Information Economics, AIE ) 方法 [6]: 
AIE 提供 了 一 种 衡量 无 形 资产 的 方法 , 还 在 开发 决策 模型 、 校 正 专家 预测 ， 以 及 获得 信 
息 预 期 价值 等 方面 提供 了 指导 。 
e “MAD 技能 ”[7] 为 数据 分 析 生 命 周 期 中 专注 模型 建立 、 执 行 和 关键 发 现 的 第 2 到 第 4 
段 所 涉及 的 若干 技术 提供 了 参考 。 
2.2 概述 了 数据 分 析 生 命 周 期 的 6 个 阶段 ,项 目 团队 在 某 一 阶段 学 到 的 新 东西 常常 促 
也 们 重 返 生命 周期 中 更 早 的 阶段 ， 并 基于 新 发 现 的 见解 和 知识 进一步 改进 ] 

在 图 2.2 中 这 6 个 阶段 形成 一 个 循环 ,箭头 代表 了 项 目 在 相 邻 阶段 之 间 可 能 的 反复 
全， 而 最 大 的 环形 箭头 则 代表 了 项 目 最 终 的 前 进 方向 。 图 中 还 包括 了 一 些 问题 示 份 ， 
帮助 确认 每 位 团队 成 员 是 否 获得 足够 信息 ， 以 及 是 否 取得 足够 进展 支持 进入 下 一 个 
段 。 需 要 注意 的 是 ， 这 些 阶 段 的 定义 并 非 是 对 项 目 流程 的 硬性 规定 ， 而 是 旨 在 为 项 
能 否 适时 向 前 进 提供 衡量 标准 。 
下 面 是 数据 分 析 生 命 周期 几 个 主要 阶段 的 简单 概述 。 
e 第 1 阶段 一 一 发 现 : 在 这 个 阶段 ， 团 队 成 员 需 要 学 习 业 务 领域 的 相关 知识 ， 其 中 包括 
项 目的 相关 历史 。 比 如 ， 可 以 了 解 该 组 织 或 者 业务 单位 以 前 是 否 进行 过 类 似 项 目 ， 能 

鉴 相关 经 验 。 团 队 还 需要 评估 可 以 用 于 项 目 实施 的 人 员 、 技 术 、 时 间 和 数据 。 在 
个 阶段 ， 重 点 要 把 业务 问题 转化 为 分 析 挑 战 以 竺 在 后 续 阶 段 解决 ， 制定 初始 假 
jj 试 和 开始 学 习 数据 。 
2 阶段 一 一 数据 准备 :第 2 阶段 需要 准备 好 分 析 沙 盘 ， 以 便 团 队 在 项 目 过 程 中 进行 


] 数 据 和 进行 数据 分 析 。 团 队 需 要 执行 提取 、 加 载 和 转换 CELT ) 或 者 提取 、 转 换 和 
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加 载 CETL ) 来 将 数据 导入 沙盘 。ELT 和 ETL 有 时 被 缩写 为 ETLT。 数据 应 在 ETLT 过 
程 中 被 转换 成 可 以 被 团队 使 用 和 分 析 的 格式 。 在 这 个 阶段 ， 分 析 团 队 需 要 彻底 熟悉 数 
据 ， 并 且 逐 步 治 理 数 据 (第 2.3.4 D o 


























































































































我 是 否 有 足够 的 信息 
来 制定 分 析 方 案 并 交 
给 团队 成 员 传 阅 ? 










L2] 我 是 否 有 足够 
多 的 高 质量 数 
数据 准备 据 用 于 构建 分 
析 模 型 ? 


L5) © 


沟通 结果 规划 模型 


o 


建立 模型 
我 是 否 已 经 确定 尝试 


分 析 模 型 是 否 足 
[hess : 哪 种 分 析 模 型 ? 我 能 
够 健壮 ? 我 们 是 否 进一步 完善 分 析 方 


真 的 失败 了 ? x 
zd 2.2 ”数据 分 析 生 命 周期 概述 


e 第 3 阶段 -一 规划 模型 : 在 该 阶段 ， 团队 需 要 确定 在 后 续 模 型 构建 阶段 所 采用 的 方法 、 技 术 
和 工作 流程 。 团 队 会 探索 数据 以 了 解 变 量 之 间 的 关系 ， 然 后 挑选 关键 变量 和 最 合适 的 模型 。 
e 第 4 阶段 一 一 建立 模型 : 在 第 4 阶段， 团队 创建 用 于 测试 、 培 训 和 生产 的 数据 集 。 此 外 ， 
忆 队 在 这 个 阶段 构建 并 运行 由 上 阶段 确定 的 模型 。 团 队 还 需要 考虑 现 有 的 工具 是 否 能 够 满 
足 模型 的 运行 需求 ， 还 是 需要 一 个 更 强大 的 模型 和 工作 流 的 运行 环境 〈 例 如， 更 快 的 硬件 









































































































































































































































































































































































































































和 并 行 处 理 )。 
e 第 5 阶段 一 一 沟通 结果 : 在 第 5 阶段 ,团队 需要 与 主要 利益 相关 人 进行 合作 ， 以 第 1 
阶段 制定 的 标准 来 判断 项 目 结果 是 成 功 还 是 失败 。 团 队 应 该 鉴别 关键 的 发 现 ， 量 化 其 



































































































































商业 价值 ， 并 以 适当 的 方式 总 结 发 现 并 传达 给 利益 相关 人 。 
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e 第 6 阶段 一 一 实施 : 在 第 6 NE, HUME? eS 简报 、 代 码 和 技术 文档 。 
此 外 ， 团 队 可 以 在 生产 环境 中 实施 一 个 试点 项 目 来 应 用 模型 

在 团队 成 员 运行 模型 并 产生 结果 后 ， 根 据 受 众 采取 相应 的 方式 阐述 成 果 非 常 关键 。 此 外 ， 
阐述 成 果 时 展示 其 清晰 价值 也 非常 关键 。 如 果 团 队 进行 了 精确 的 技术 分 析 ， 但 是 没有 将 成 果 转 
换 成 可 以 与 受众 产生 共鸣 的 表达 ， 那 么 人 们 将 看 不 到 成 果 的 真实 价值 ， 也 将 浪费 许多 项 目 中 投 
入 的 时 间 和 精力 。 

这 一 章 接 下 来 的 篇 幅 做 如 下 安排 。2.2 节 到 2.7 节 将 一 一 详 述 数据 分 析 生 命 周 期 的 6 个 阶段 ， 
2.8 节 将 讨论 一 个 将 数据 分 析 生 命 周期 应 用 于 实际 数据 科学 项 目的 案例 。 


2.2 第 1 阶段 : 发 现 


数据 分 析 生 命 周 期 的 第 1 个 阶段 C LES 2.3 ) 在 于 发 现 。 在 这 个 阶段 ， 数 据 科学 团队 需要 学 
习 和 研究 问题 、 构 建 问题 的 语 境 和 理解 、 了 解 项 目 所 需 的 和 可 以 获得 的 数据 源 。 此 外 ， 团 队 还 
需要 制 后 续 可 使 ] 数 据 来 测试 的 初步 假设 。 
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4 
建立 模型 
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MAIL? RINER 哪 种 分 析 模型? 我 能 
真 的 失败 了 ? iE Ac) 





图 2.3 发现 阶段 


2.2 第 1 阶段 : 发 现 





2.2.1 学 习 业 务 领 域 


理解 问题 的 领域 非常 的 重要 。 在 很 多 情况 下 ， 数 据 科 学 家 需要 拥有 深厚 的 能 被 广泛 应 用 
GS UE AT 有 应 用 数学 或 者 统计 学 的 高 级 学 位 。 

这 些 数 据 科 学 家 熟练 掌握 用 于 各 种 业务 和 概念 问题 的 方法 、 技 术 和 手段 。 其 他 人 员 可 能 
对 业务 领域 和 定量 专业 知识 有 深入 理解 ， 比 如 生命 科学 领域 的 博士 对 海洋 学 、 生 物 学 或 者 遗 
传 学 等 研究 领域 有 深入 理解 ， 而 且 具 有 一 定 深度 的 定量 知识 。 
在 该 阶段 ， 为 了 开发 第 3 和 第 4 阶段 涉及 的 模型 ， 团 队 需 要 确定 数据 科学 家 需要 多 少 业 务 
或 者 领域 知识 。 团 队 应 该 尽早 进行 此 项 评估 ， 来 决定 项 目 团 队 需 要 的 资源 ， 并 确保 团队 拥有 均 
衡 的 业务 领域 知识 和 技术 技能 。 








































































































































































































































































































































































































































































































































































































2.2.2 资源 


作为 发 现 阶 段 的 一 部 分 ， 团 队 需 要 评估 项 目的 可 用 资源 。 在 这 里 ， 资 源 包括 技术 、 工 具 、 
系统 、 E 
























































































































































| 和 团队 将 会 使 用 的 工具 和 技术 ， 以 及 后 期 阶段 实施 模型 需要 的 系统 类 型 。 
Iph, Re LIS LR REIHE EUER 
距 。 例 如 ， 为 了 让 正在 开发 的 模型 能 在 组 织 机 构 内 长 期 ， 要 考虑 会 用 到 哪些 类 型 的 现 如 
今 尚 不 具备 的 技能 和 角色 。 为 了 项 人 
的 技能 和 角色 ?所 需要 的 专业 知识 在 当下 的 组 织 内 是 否 已 经 具备 ， 还 是 需要 培养 ? 这 些 问题 
会 影响 团队 的 技术 选 型 ， 以 及 数据 分 析 生 使 周期 后 续 阶 段 的 实现 方式 。 
余 了 技能 和 计算 资源 外 ， 盘 点 项 目 团 队 可 用 的 数据 种 类 是 明 吞 的。 要 考虑 现 有 的 数据 是 否 
持 实 现 项 目的 目标 。 团 队 将 需要 考虑 是 否 必须 收集 更 多 的 数据 ， 或 者 从 外 部 购买 
数据 。 通 第 情况 下 ， 项目 开始 时 只 着 眼 可 用 数据 。 当 数据 少 于 预期 时 ， 该 项 目的 
据 现 有 应 地 缩小 。 
的 长 期 目标 ， 而 不 只 局 限于 当前 数据 。 团 队 则 可 以 考虑 哪些 数 
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: 些 目标 可 以 在 现 有 数据 的 基础 上 达成 。 兼 顾 长 期 目标 和 短期 目标 
使 得 团队 可 以 进行 更 有 抱负 的 项 目 , 可 以 把 一 个 项 目 作为 战略 举措 的 第 一 步 而 非 独 立 个 体 对 待 。 
等 项 目 作 为 长 远 考 虑 的 一 部 分 非常 关键 ， 尤 其 是 当 项 目 执行 所 在 的 组 织 机 构 对 数据 科学 知之 其 
D, 前 为 止 可 能 还 没有 最 佳 的 数据 集 来 文 持 健壮 的 分 析 。 
在 项 目 团 队 中 ， 需 要 拥有 领域 专家 、 客 户 、 分 析 人 才 ， 也 需要 有 效 的 项 目 管理 。 此 外 ， 还 
要 评估 项 目 需 要 多 长 时 间 ， 以 及 团队 拥有 的 技能 是 否 兼 具 广 度 和 深度 。 
E 盘 点 完工 具 、 技 术 、 数 据 和 人 这 些 因素 后 ， 需 要 考虑 团队 是 否 有 足够 的 资源 来 成 功 完成 
这 个 项 目 ， 或 者 是 否 还 需要 额外 的 资源 。 在 项 目 开始 阶段 协商 资产， 同时 界定 目的 、 目 标 和 可 
































第 2 章 数据 分 析 生 命 周 期 












































行 性 ， 比 在 项 目 过 程 中 规划 这 些 事情 更 有 用 ， 同 时 也 确保 留 有 足够 的 时 间 来 完成 目标 。 项 目 经 
理 和 关键 利益 相关 者 在 这 个 阶段 更 容易 协商 好 所 需 资源 ， 而 不 是 等 到 项 目 进行 时 。 
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2.2.3” 设 定 问 题 


恰当 地 设 定 问题 是 项 目 成 功 的 关键 。 设 定 〈framing ) 指 的 是 陈述 待 解决 问题 的 过 程 
最 好 的 方法 是 记 下 问题 陈述 ， 然 后 与 关键 利益 相关 者 进行 沟通 。 每 位 团队 成 员 理 解 的 需 
和 问题 可 能 都 稍 有 不 同 ， 对 可 能 的 解决 方案 也 有 不 同 的 看 法 。 因 此 ， 陈 述 分 析 问 题 本 号 ， 
以 及 陈述 问题 为 何 重要 以 及 对 谁 重 要 ， 非 常 关 键 。 从 本 质 上 讲 ， 团 队 需 要 清楚 地 了 解 当前 
的 形势 和 面临 的 主要 挑战 。 

作为 这 项 活动 的 一 部 分 ， 识 别 项 目的 主要 目标 ， 明 确 哪些 业务 需求 需要 实现 ， 以 及 确定 需 
要 做 哪些 工作 才能 满足 这 些 需 求 ， 都 非常 重要 。 此 外 ， 还 应 该 考虑 项 目的 目标 和 项 目 成 功 的 标 
准 。 通 过 这 个 项 目 需要 实现 哪些 目标 ， 以 及 哪些 指标 能 够 帮助 判断 项 目 是 成 功 的 呢 ? 把 这 些 指 
标记 录 下 来 ， 并 分 享 给 项 目 团 队 成 员 和 关键 利益 相关 者 。 最 好 的 办 法 是 将 目标 声明 和 和 成功 的 标 
准 分 享 给 团队 ， 并 和 项 目 发 起 人 确认 是 否 符 合 他 们 的 期 望 。 

制定 项 目 失败 的 标准 同样 重要 。 大 部 分 人 只 会 为 项 目 制定 成 功 的 标准 和 对 项 目 参与 者 的 
奖 沉 。 但 这 几乎 是 仅 考 虑 最 理想 的 情况 ， 假 设 所 有 事情 都 按照 预先 计划 进行 ， 项 目 团队 将 顺 
利 实现 预订 目标 。 然 而 ， 无 论 多 么 周全 的 计划 ， 都 不 可 能 预料 到 项 目 中 所 有 的 突 发 情况 。 失 
败 标准 可 以 让 团队 清楚 什么 时 候 应 该 停止 尝试 ， 或 满足 于 已 经 收集 到 的 数据 结果 。 许 多 时 候 ， 
即使 从 收集 的 数据 中 不 再 能 够 挖 据 出 有 价值 的 信息 ， 人 们 仍 会 继续 执行 分 析 。 建 立成 功 标准 
和 失败 标准 可 以 让 团队 在 与 项 目 发 起 人 保持 一 致 的 前 提 下 少 做 无 用 功 。 






































































































































































































































[= 









































































































































































































































































































































































































































































































































































































































































































































































































































| 站 

















































































































































































































2.2.4 确定 关键 利益 相关 者 


另 一 个 重要 步骤 是 确认 项 目 关 键 利益 相关 者 和 他 们 对 项 目的 兴趣 所 在 。 在 讨 ; 
可 以 确定 成 功 的 标准 、 主 要 的 风险 和 利益 相关 者 , 其 中 利益 相关 者 应 该 包括 任何 会 从 项 目 中 
受益 或 者 受 项 目 显著 影响 的 人 。 在 与 利益 相关 者 交流 时 , 需要 了 解 业务 领域 和 类 似 分 析 项 目 
的 相关 历史 。 比 如 , 团队 可 以 确认 每 个 利益 相关 者 对 项 目 结果 的 期 望 ， 及 其 判断 项 目 成 败 的 
标准 。 
竺 何 项 目的 发 起 都 是 有 原因 的 。 财 队 必 须 尽 可 能 弄 清 项 目 亟 待 解决 的 痛 点 ， 并 知晓 在 分 析 
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过 程 中 哪些 领域 该 深入 、 哪 些 领域 该 规避 。 取 决 于 项 目 利益 相关 者 和 参与 者 的 数量 ， 财 队 可 以 
考虑 大 致 弄 清 每 个 人 期 望 的 参与 项 目的 方式 。 这 样 做 能 明确 项 目 参 与 者 的 预期 ， 并 避免 可 

此 导 华 的 项 目 进 度 的 拖延 。 比 如 ,一 方面 团队 可 能 因为 觉得 需要 某 人 的 批复 而 等 待 ， 男 一 方 
此 人 则 可 能 视 自 己 为 项 目 顾问 而 不 去 审批 项 目 。 










































































2.2 第 1 阶段 : 发 现 





2.2.5 采访 分 析 发 起 人 


列队 需要 与 利益 相关 者 合作 来 明确 和 设 定 需要 分 析 的 问题 。 在 开始 阶段 ， 项 目 发 起 人 可 外 
已 经 有 一 个 预先 确定 的 解决 方案 ， 但 是 这 个 解决 方案 不 一 定 能 够 实现 所 期 望 的 结果 。 在 这 种 
况 下 ， 团 队 必须 利用 自己 的 知识 和 专长 找到 真正 的 问题 和 合适 的 解决 方案 。 
网 如 ， 假 设 在 一 个 项 目的 初期 阶段 ， 团 队 被 要 求 创建 一 个 推荐 系统 用 于 业务 ， 做 法 是 与 三 
个 人 沟通 并 将 推荐 系统 集成 到 现 有 的 企业 系统 中 。 虽 然 这 可 能 是 一 种 有 效 的 方法 ， 但 是 检验 问 
题 的 假设 和 建立 清 EE 要 。 利 益 相 关 者 可 能 会 建议 问题 的 解决 方案 ， 但 是 数据 科学 
下 队 往 往 对 问题 有 更 客观 的 理解 。 因 此 ， 团 队 需 要 更 多 了 解 背 景 和 业务 ， 以 便 更 清楚 地 界定 问 
题 ， 并 为 问题 找到 可 行 的 解决 方案 。 从 本 质 上 看 ， 数 据 科学 团队 能 够 采取 更 客观 上 A 
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利益 相关 者 可 能 已 经 因为 自己 的 经 验 而 形成 偏见 。 而 且 ， 过 去 正确 的 事 
迟 免 出 现 这 种 问题 的 一 种 可 能 方法 是 ,了 重心 放 到 需求 定义 上 ， 而 其 他 团队 成 员 专 
注 于 寻找 实现 这 些 需 求 的 方法 。 

的 交流 时 ， 团 队 需 要 花 时 间 和 项 目 发 起 人 进行 深入 的 沟通 ， 因 为 项 
赞助 者 往往 是 项 目的 出 资 者 ， 或 者 是 提出 抽象 需求 的 人 。 项 目 发 起 人 清楚 需要 解决 的 问 
党 也 对 流 在 的 解决 方案 有 一 定 想法 。 在 团队 启动 项 目 时 ,彻底 理解 项 目 发 起 人 的 想法 非常 关键 。 
下 面 是 与 项 目 发 起 人 交流 的 一 些 技巧 。 
为 交流 做 准备 ， 列 出 相关 问题 ， 并 和 同事 
尽量 使 用 开放 式 提问 ， 人 避免 提 诱 导 性 问题 。 
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避免 过 度 提问 ， 让 对 方 有 足够 思考 
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时 间 。 












































在 项 目 发 起 人 表达 自己 的 比如 “为 什么 ?是 这 样 的 吗 ? 这 个 








































































































































































































































































































































































































想法 后 ， 做 澄清 式 提 问 ， 
想法 切 题 吗 ? 还 有 什么 需要 补充 的 吗 ? ” 
e ”耐心 和 倾听， 复述 或 者 重新 组 织 获 得 的 信息 ， 以 确保 理解 无 误 。 
e 尽量 避免 表达 带 有 倾向 性 的 团队 观点 ， 专 注 于 倾听 。 
e ”注意 交流 双方 的 肢体 语言 ， 适 当地 使 用 眼神 交流 ， 保 持 注 意 力 。 
e 尽量 避免 干扰 。 
e 记录 获取 的 信息 ， 并 与 项 目 发 起 人 一 同 审议 。 
下 面 是 在 发 现 阶段 与 项 目 发 起 人 交流 时 常用 问题 的 简要 列表 。 项 目 发 起 人 反馈 的 信息 可 以 
帮助 明确 项 目 范围 、 制 定 项 目 目标 和 任务 。 

























































































团队 需要 解决 哪些 业务 问题 ? 
e 项 目的 预期 结果 是 什么 ? 
e 有 了 哪些 数据 源 可 用 ? 
e 哪些 行业 问题 可 能 影响 到 分 析 ? 
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点 上 有 何 考虑 ? 
dep I? 
决策 权 ? 
维度 发 生 了 改变 ， 问 题 的 重点 和 范围 将 如 何 改变 ? 
时 间 : 分 析 1 年 还 是 10 年 的 数据 ? 
ASD: 评估 人 力 资源 变化 对 项 目 进 度 的 影响 。 
风险 : 保守 到 积极 。 
资源 ， 从 极度 匮乏 到 无 尽 CLE. BOR. ARK). 
数据 大 小 和 属性 : 包含 内 部 和 外 部 数据 源 。 
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2.2.6 形成 初始 假设 


多 成 一 系列 初始 假设 是 发 现 阶段 的 一 个 重要 方面 。 这 涉及 团队 ] 数 据 检验 的 想法 。 
般 情 况 下 ， 最 好 先 提出 儿 个 主要 的 假设 进行 测试 ， 然后 再 想 6 初始 假设 是 团队 在 
后 续 阶 段 进行 的 分 析 测试 的 原型 ， 并 为 第 5 阶段 的 发 现 葛 定 基础 。 第 3 更 将 从 统计 角度 详细 讨 
论 假设 检验 。 
通过 这 各 方式， 团队 可 以 将 自己 的 假设 与 实验 或 测试 结果 进行 比较 ， 以 生成 更 多 的 潜在 衣 
决 方案 。 最终 ， 团 队 将 拥有 更 加 丰富 的 发 现 ， 能 为 项 目 最 有 影响 力 的 结论 提供 更 多 的 佐证 。 
这 个 过 程 还 涉及 从 利益 相关 者 和 领域 专家 那里 收集 和 评估 假设 。 这 些 利益 相关 者 和 领域 专 
家 对 于 问题 本 身 、 问 题 的 解决 方案 ， 以 及 如 何 得 到 解决 方案 ， 都 可 能 有 自己 的 见解 。 他 们 熟悉 
业务 领域 ， 可 以 为 团队 形成 初始 假设 提供 和 想法。 团队 收集 到 的 许多 想法 可 能 反映 了 这 些 人 的 营 
运 假设 。 这 些 想法 也 可 以 帮助 团队 有 意义 地 扩大 项 目 范 围 ， 或 者 贴 合 利益 相关 者 最 重要 的 兴趣 
设计 实验 。 在 假设 形成 时 ， 可 以 获取 和 探索 一 些 初始 数据 ， 以 便 与 利益 相关 者 一 起 讨论 。 








































































































n 
WM 
CT NN 
h¢ SE 
| 医 
































H 




























































































































































































Fa 
































































































































































































































































































































































































































2.2.7 ”明确 潜在 数据 源 


在 发 现 阶 段 ， 团 队 需 要 确认 用 来 解决 问题 的 数据 ， 并 考虑 用 于 检验 假设 的 数据 的 体 量 、 类 
型 和 时 间 跨 度 。 要 确保 团队 可 以 访问 的 数据 不 局 限于 简单 的 聚合 数据 。 在 大 多 数 情况 下 ， 团 队 
需要 原始 数据 以 避免 后 期 分 析 时 的 偏差 。 要 依据 第 1 章 中 介绍 的 大 数据 的 特征 ， 从 体 量 、 种 类 
和 速度 的 变化 方面 评估 数据 的 主要 特征 。 数 据 状况 的 诊断 情况 会 影响 到 数据 分 析 生 命 周期 第 2 
阶段 到 第 4 阶段 使 用 的 工具 和 技术 。 此 外 ,在 此 阶段 进行 数据 探索 将 帮助 团队 确定 所 需要 的 数 
据 量 ， 例 如 ， 从 现 有 系统 中 获取 的 历史 数据 量 和 数据 结构 。 要 对 项 目 中 需要 的 数据 的 范围 有 所 
认 知 ， 并 与 领域 专家 一 起 确认 。 
在 发 现 阶段 ， 团 队 需 要 进行 项 主要 的 活动 。 
e 识别 数据 源 : 列 出 团队 在 本 阶段 测试 初始 假设 所 需要 的 候选 数据 源 清单 。 盘 点 当前 可 
] 的 数据 集 和 可 购买 到 的 数据 集 。 
























































































































































































































































































































































































































































































































































































































































e 捕获 汇总 数据 源 : IL, 
e 查看 原始 数据 : 从 
熟悉 数据 的 
e 评估 数据 结构 和 所 需 工具 : WU 
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我 是 否 有 足够 的 信息 
来 制定 分 析 方案 并 交 
给 团队 成 员 传阅 ? 





2t 发 现 
5 我 是 否 有 足够 
anne 
as 析 模 型 ? 
> 3 
沟通 结果 规划 模型 
4 
T 我 是 否 已 经 确定 尝试 
5: 
VEU ROUES 哪 种 分 析 模 型 ? 我 能 
真 的 失败 了 ? MN 





E24 数据 准备 阶段 
2.3.1 准备 分 析 沙 箱 


数据 准备 阶段 的 第 1 个 子 阶 段 , 团队 需要 获取 一 个 分 析 沙 箱 (通常 也 称 为 工作 区 )， 以 便 在 

~ 干扰 到 生产 数据 库 的 前 提 下 探索 数据 。 假 设 团队 需要 处 理 公 司 的 财务 数据 ， 那 么 团队 应 该 在 
分 析 沙 箱 中 用 财务 数据 的 拷贝 进行 分 析 ， 而 不 是 直接 用 公司 的 生产 数据 库 进行 分 析 。 直 接 操 人 
生产 数据 库 是 受到 严格 控制 的 ， 只 有 在 制作 财务 报表 时 才能 进行 。 
当 准 备 分 析 沙 箱 时 ， 最 好 能 收集 所 有 数据 放 入 沙 箱 ， 因 为 团队 成 员 在 进行 大 数据 分 析 时 需 
要 访问 大 量 的 不 同 种 类 的 数据 。 取 决 于 计划 进行 的 分 析 ， 这 些 数据 可 能 包括 汇总 的 聚合 数据 、 
结构 化 数据 、 原 始 数据 ， 以 及 从 通话 记录 和 网 页 日 志 中 获取 的 非 结 构 化 文本 数据 。 
这 种 全 盘 收 集 数据 的 方式 和 许多 YT 组 织 机 构 提 倡 的 方式 非常 不 同 。 许 多 YT 部 门 只 会 为 特 
定 目的 提供 特定 数据 段 的 访问 。 通常 , IT 部 门 的 心态 是 提供 最 少 的 数据 , 让 团队 实现 目标 即 可 ， 
而 数据 科学 团队 则 想 着 拿 到 所 有 数据 。 对 于 数据 科学 团队 来 说 ， 数 据 越 多 越 好 ， 因 为 数据 科学 
项 目 通常 混合 了 目的 驱动 型 分 析 和 测试 各 种 想法 的 实验 性 方法 。 在 这 种 情况 下 ， 如 果 访 问 每 个 
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2.3 第 2 阶段 : 数据 准备 























































































































数据 集 和 每 个 数据 属性 都 需要 单独 申请 ， 这 对 于 数据 科学 团队 是 非常 有 挑战 的 。 由 于 在 数据 访 
问 和 数据 使 用 上 有 不 同 的 考量 ,数据 科学 团队 与 IT 部 门 的 合作 至 关 重 要 , 一 定 要 共同 明确 需要 
完成 什么 样 的 目标 ， 并 且 目 标 一 致 。 
在 与 IT 团队 沟通 时 ， 数 据 科学 团队 需要 证 明 一 个 独立 于 组 织 机构 内 由 IT 部 门 管理 的 传统 
数据 仓库 的 分 析 沙 箱 的 必要 性 。 为 了 在 数据 科学 团队 和 IT 部 门 之 间 取 得 成 功 且 民 好 的 平衡 , 需 
要 在 多 个 团队 和 数据 所 有 者 之 间 建 立 积极 的 工作 关系 。 而 这 样 做 产生 的 回报 是 巨大 的 。 分 析 沙 
箱 使 得 组 织 机 构 可 以 执行 目标 更 远大 的 数据 科学 项 目 ， 超越 传统 数据 分 析 和 商业 智能 的 范畴 ， 
进行 更 为 强大 和 高 级 的 的 预测 分 析 。 
沙 箱 可 能 会 很 大 。 它 可 能 包含 原始 数据 、 聚 合 数 据 和 其 他 在 组 织 机 构 不 常 使 用 的 数据 类 型 。 
沙 箱 的 大 小 可 以 根据 项 目的 不 同 有 所 变化 。 一 个 有 用 的 准则 是 沙盘 至 少 应 该 是 原始 数据 集 的 5 一 
10 倍 大 小 ， 部 分 原因 在 于 项 目 中 数据 的 多 份 拷贝 可 能 被 分 别 用 来 创建 特定 的 数据 表 或 存储 以 进 
行 特 定 的 数据 分 析 。 
尽管 分 析 沙 箱 是 一 个 相对 较 新 的 概念 ， 已 经 有 公司 着 手 于 这 一 领域 ， 寻 找 沙 箱 和 工作 区 的 
解决 方案 ， 以 便 数 据 科学 团队 能 够 采用 一 种 可 被 IT 部 门 所 接受 的 方式 来 访问 和 处 理 数据 集 。 















































































































































































































































































































































































































































— 
c 










































































































































































































































































































































































































































































u 









































iS 





2.3.2 执行 ETLT 


当 团队 开始 转换 数据 时 ， 需 要 确保 分 析 沙 盘 拥 有 足够 的 之 涡 和 可 靠 的 网 络 来 连接 到 底层 数 
据 源 ,以 进行 不 间断 的 数据 读 写 。 在 ETL 过 程 中 , 用 户 从 数据 存储 中 提取 数据 , 执行 数据 转换 ， 
将 数据 加 载 回 数据 存储 。 然 而 ， 分 析 沙 箱 方 法 略 有 不 同 ， 它 主张 先 提 取 、 加 载 ， 然 后 转换 ， 
即 ELT。 在 这 种 情况 下 ， 数 据 是 以 原始 格式 提取 的 ， 然 后 加 载 到 数据 存储 中 ， 在 那 
以 选择 将 数据 转换 到 一 个 新 的 状态 或 者 保持 它 的 原始 状态 。 使 用 这 种 方法 是 因为 保 
将 它 在 发 生 任何 转变 之 前 保存 到 沙 箱 具 有 重要 的 价值 。 

例如 ， 考 虑 信用 卡 欺 诈 检 测 的 分 析 案 例 。 很 多 时 候 ， 数 据 中 的 异 弟 值 代表 着 象征 信用 卡其 
诈 行为 的 高 风险 交易 。 使 用 ETL 的 话 ， 这 些 异 常 值 在 被 加 载 到 数据 存储 之 前 ， 可 能 就 已 经 被 无 
意 中 过 滤 掉 或 者 被 转换 和 清洗 。 在 这 种 情况 下 ， 用 于 评估 欺诈 活动 的 数据 已 经 被 无 意 中 丢 弃 ， 
列队 也 就 无 从 进行 相应 的 分 析 。 
遵循 ELT 方法 可 以 在 数据 存储 中 为 团队 提供 干净 的 数据 用 于 分 析 ， 也 可 以 让 团队 访问 数据 
的 原始 形式 ， 以 查找 数据 中 隐藏 的 细微 差别 。 分 析 沙 箱 的 大 小 之 所 以 能 够 快速 增长 ， 部 分 原 
正在 于 采用 了 ELT 方法。 团队 既 可 能 想 要 干净 的 数据 和 聚合 的 数据 ， 也 可 能 需要 保存 一 份 原始 
格式 的 数据 以 进行 比较 ,或 者 是 在 清洗 数据 前 找到 数据 中 隐 奖 的 模式 。 这 整个 过 程 可 以 被 概括 
为 ETLT， 意 味 着 团队 可 以 选择 在 一 个 分 析 案 例 中 执行 ETL ， 而 在 另 一 个 案例 中 执行 ELT。 
根据 数据 源 的 大 小 和 数量 ,团队 可 能 需要 考虑 如 何 将 数据 并 行 地 导入 到 沙 箱 。 导 入 大 量 
数据 有 时 候 被 称 为 Big ETL. 数据 导入 可 以 使 用 Hadoop 或 MapReduce 等 技术 并 行 化 。 我 们 将 
在 第 10 章 中 详细 介绍 这 些 技术 ,它们 可 以 用 于 执行 并 行 数据 摄取 ， 以 及 在 很 短 的 一 段 时 间 内 
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行 产 生 大 量 的 文件 或 数据 集 。Hadoop 可 以 用 于 数据 加 载 以 及 后 续 阶 段 的 数据 分 析 。 
在 将 数据 导入 到 分 析 沙 箱 之 前 ， 确 定 要 在 数据 上 执行 的 转换 。 这 涉及 评估 数据 质量 和 构建 
适 的 数据 集 ， 以 便 在 后 续 阶 段 的 分 析 。 此 外 ， 考 虑 团队 将 可 以 访问 哪些 数据 ， 以 及 需要 从 数 
中 生成 哪些 新 的 数据 属性 来 支持 分 析 ， 也 很 重要 。 

作为 ETIT 的 一 部 分 ， 建 议 盘点 数据 ， 并 将 当前 可 用 的 数据 与 团队 需要 的 数据 进行 比较 。 这 
差距 分 析 能 帮助 理解 团队 目前 可 以 利用 的 数据 集 ， 以 及 团队 需要 在 何 时 何 地 开始 收集 或 访问 当 
前 不 可 用 的 新 数据 集 。 这 个 子 过 程 涉及 从 可 用 源 提取 数据 ， 以 及 确定 用 于 原始 数据 、 在 线 事务 处 
FE (OLTP ) 数据 库 、 联 机 分 析 处 理 (OLAP ) 数据 集 或 其 好 数据 更 新 源 的 数据 连接 。 

六 用 程序 编程 接口 ( API ) 是 一 种 越 来 越 流行 的 访问 数据 源 的 方式 [8]。 现 在 许多 网 站 和 社交 网 
络 应 用 程序 都 提供 可 以 访问 数据 的 API， 用 于 为 项 目 提供 支持 , 或 者 补充 团队 正在 处 理 的 数据 集 。 
例如 ， 通 过 Twitter API 可 以 下 载 数 以 百 万 计 的 Twitter 信息 ， 用 于 对 一 个 产品 、 一 个 公司 或 一 个 想 
法 的 情感 分 析 项 目 。 大 部 分 的 Twitter 数据 都 是 公开 的 ， 可 以 在 项 目 中 和 其 他 数据 集 一 起 被 使 用 。 
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2.3.3 ”研究 数据 


数据 科学 项 目的 关键 之 一 是 熟悉 数据 。 通 过 花 时 间 了 解数 据 集 的 细微 差别 ， 可 以 帮助 理解 
什么 是 有 价值 的 和 预期 的 结果 ， 以 及 什么 是 意外 的 发 现 。 此 外 ， 重 要 的 是 要 对 团队 可 以 访问 的 
数据 源 进 行 归 类 ， 并 识别 团队 可 以 利用 但 是 暂时 无 法 访问 的 其 他 数据 源 。 这 里 做 的 一 些 事情 可 
能 会 与 在 发 现 阶段 对 数据 集 的 初始 调查 有 重 普 。 研 究 数 据 是 为 了 达成 几 个 目标 。 
e ”明确 数据 科学 团队 在 项 目 时 可 以 访问 的 数据 。 
e 识别 组 织 机 构 内 那些 对 团队 来 说 可 能 有 用 但 是 暂时 还 无 法 访问 的 数据 集 。 这 样 做 可 
以 促使 项 目 人 员 开 始 与 数据 拥有 者 建立 联系 ， 并 寻找 合适 的 方法 分 享 数据 。 此 外 ， 
这 样 做 可 以 推动 收集 有 利于 组 织 机 构 或 者 一 个 特定 的 长 期 项 目的 新 数据 。 
i 织 机 构 外 的 ,可 以 通过 开放 的 API、 数 据 共 享 ， 或 者 购买 的 方式 获取 的 新 











































































































































































































































































































































































































































































































































































































































































































































































































K 2.1 展示 了 一 种 数据 清单 的 组 织 方法 。 
表 2.1 数据 清单 示例 
数据 集 可 用 和 可 访问 | 数据 可 用 ， 但 无 | 要 收集 的 | 从 第 三 方 数据 源 获 
的 数据 法 访问 数据 取 的 数据 
产品 发 货 数据 @ 
产品 财务 数据 @ 
产品 呼叫 中 心 数 据 @ 
实时 产品 反馈 调查 数据 @ 
来 自 社交 媒体 的 产品 情感 数据 @ 
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2.3.4 数据 治理 


数据 治理 (data conditioning ) 是 指 清洗 数据 、 标 准 化 数据 集 和 执行 数据 转换 的 过 程 。 作 
为 数据 分 析 生 命 周 期 中 的 一 个 关键 步骤 ， 数 据 治 理 可 以 涉及 许多 关联 数据 集 ， 合 并 数据 集 ， 
或 者 其 他 使 数据 集 日 后 能 被 分 析 的 复杂 操作 。 数 据 治理 通常 被 视 为 数据 分 析 的 预 处 理 步 又 ， 

为 在 开发 模型 来 处 理 或 分 析 数 据 之 前 ， 数 据 治理 还 需要 对 数据 集 进 行 多 种 操作 。 这 意味 着 
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IT 部 门 、 数 据 所 有 者 、DBA 或 者 数据 工程 师 执行 的 。 然 而 ， 让 数据 科学 家 参加 

也 很 重要 ， 因 为 数据 治理 阶段 所 做 的 许多 决策 会 影响 到 后 续 的 分 析 ， 包 括 确定 特定 

数据 集 的 哪些 部 分 将 被 用 于 后 续 阶段 的 分 析 。 团 队 在 这 一 阶段 开始 需要 决定 保留 哪些 数据 ， 

转换 或 丢弃 哪些 数据 ， 而 这 些 决策 应 由 大 多 数 团 队 成 员 共 同 参 与 。 如 果 让 一 个 人 来 拍板 ， 可 
后 



























































































































































































































































































































































返回 这 一 阶段 来 获取 已 经 被 丢弃 的 数据 。 







































































在 前 j 卡 坎 诈 检测 的 案例 中 ， 团 队 在 选择 要 保留 的 数据 和 要 丢弃 的 数据 时 需要 深思 熟 
虑 。 如 果 财 队 在 数据 处 理 的 过 程 中 过 早 地 丢弃 了 许多 数据 ， 可 能 会 导致 重新 回溯 前 面 的 步骤 。 
i 据 科 学 团队 宁愿 保存 j 不 是 更 少 的 数据 用 于 分 析 。 与 数据 治理 相关 的 其 他 问题 和 
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据 源 是 什么 ?目标 字段 是 什么 〈《 例 如， 数据 表 的 列 ) ? 
























































































































































































































































































































































































































































































































































e 数据 

e 数据 有 多 干净 ? 

e 文件 和 内 容 一 致 四 ?如 果 数 据 包含 的 值 与 正常 值 有 偏差 ， 确 定数 据 值 缺 失 和 数据 值 不 一 臻 
到 哪 种 程度 ? 

e 评 们 数据 类 型 的 一 至 性 。 例 如， 如 果 团 队 期 望 菜 些 数 据 是 数值 型 的 ， 要 确认 它 是 数 代 
型 的 或 者 是 字母 数字 字符 串 和 文本 的 混合 。 

e 审查 数据 列 的 内 容 或 其 他 输入 ， 并 检查 以 确保 它们 有 意义 。 例 如 ， 如 果 项 目 涉 及 分 
析 收 入 水 平 ， 则 要 预览 数据 确定 收入 值 都 是 正 值 ， 如 果 是 0 BRE AES UGE 
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ES 

寻找 任何 系统 性 错误 的 证 据 。 比 如 由 于 传感器 或 其 他 数据 源 的 不 为 人 察觉 
致 数据 失效 、 不 正确 ， 或 者 缺失 数据 值 。 此 外 ， 要 审查 数据 以 衡量 数据 的 
的 
E 




































































































































































I 
I 尺度 标准 下 是 否 是 相同 的 。 在 某 些 情况 下 ， 数 据 列 被 重新 调整 ,或 者 是 数据 列 被 售 
填充 ， 而 且 这 些 变化 并 没有 被 注释 或 没有 通知 给 其 他 人 。 









































































































































2.3.5 ”调查 和 可 视 化 


在 团队 收集 和 获得 用 于 后 续 分 析 的 部 分 数据 集 后 ， 有 用 的 步骤 是 利用 数据 可 视 化工 
具 来 获得 数据 的 概述 。 观 察 数据 的 抽象 模式 可 以 帮助 人 们 快速 理解 数据 特征。 一 个 份子 是 
] 数 据 可 视 化 来 检查 数据 质量 ， 比 如 数据 是 否 包 含 很 多 非 预 期 值 或 者 其 他 脏 数据 的 迹象 〈 脏 
数据 将 在 第 3 童 进一步 讨论 )。 另 一 个 例子 是 数据 倾斜 (skewness )， 比 如 ， 大 部 分 数据 集中 在 
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时 个 数值 或 者 连续 统 (continuum ) 的 一 端 。 
Shneiderman[9] 因 其 可 视 化 数据 分 析 的 理念 ( 即 全 盘 观 察 ， 放 大 及 过 滤 ， 然 后 按 需 获取 
W) 而 众所周知 。 这 是 一 个 务实 的 可 视 化 数据 分 析 方 法 。 它 允许 用 户 找 到 感 兴趣 的 领域 ， 然 
后 通过 放大 和 过 渡 来 找到 与 数据 的 特定 区 域 相关 的 更 详细 信息 ， 最 后 找到 特定 区 域 背 后 详 旨 
的 数据 。 这 种 方法 提供 了 数据 的 一 个 高 层 视 图 ， 可 以 在 相对 较 短 的 时 间 内 获悉 给 定数 据 集 的 
大 量 信息 。 
当 该 方法 与 数据 可 视 化 工具 或 统计 软件 包 一 起 使 用 时 ， 推 荐 下 述 指导 意 
e 审查 数据 以 确保 针对 一 个 数据 字段 的 计算 在 列 内 或 者 在 表 间 保持 一 致 。 例 如 ， 客 户 寿 
命 的 值 在 数据 收集 的 中 期 有 改变 吗 ? 或 者 当 处 理财 务 信息 时 ， 利 率 计 算是 否 在 年 底 
单 利 变 为 复 利 ? 
e 所 有 数据 的 数据 分 布 是 否 都 保持 一 致 y 如 果 没 有 ， 应 该 采取 怎样 的 措施 来 解决 这 个 问题 ? 
评估 数据 的 粒度 、 取 值 范围 和 数据 聚合 水 平 。 
e 数据 是 否 代 表 目 标 群 体 呢 ? 对 于 营销 数据 ， 如 果 项 目 关注 的 是 育儿 年 龄 的 目标 客户 ， 
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e ”对 于 与 时 间 相 关 的 变量 , 是 以 每 日 、 每 周 还 是 每 月 
是 否 都 在 以 秒 计算 时 间 ? 或 者 有 些 地 方 以 毫秒 为 单位 ?确定 分 析 所 需 的 数据 粒度 ， 
评估 当前 数据 的 时 间 截 级 别 能 够 满足 需要 。 
e 数据 是 标准 化 /规范 化 的 吗 ? 数据 尺度 一 致 吗 ? 如 果 不 是 ， 数 据 是 如 何不 一 致 或 不 规则 的 ? 
e 对 于 地 理 空 间 数据 集 ， 数 据 中 的 州 或 国家 的 缩写 一 致 吗 ?” 人 的 姓名 是 规范 化 的 吗 ? 是 















































































































































































































































































































































































































































当 团队 评估 项 目 中 所 获得 的 数据 时 ， 这 些 典 型 的 考量 应 该 是 思考 过 程 的 一 部 分 。 在 后 面 阶 
段 构建 和 运行 模型 时 ， 对 数据 的 深入 了 解 非常 关键 。 

























































































2.3.6 ”数据 准备 阶段 的 常用 工具 


这 个 阶段 有 下 面 几 种 常用 的 工具 。 
€ Hadoop[10] 可 以 执行 大 规模 并 行 数 据 摄 取 和 自 定义 分 析 ， 可 用 于 Web 流量 解析 、GPS 
E 位 分 析 、 组 分 析 ， 以 及 来 自 多 个 源 的 大 规模 非 结 构 化 数据 的 整合 。 
€ Alpine Miner[11] 提 供 了 一 个 图 形 用 户 界 面 (GUI ) 来 创建 分 析 工 作 流程 ， 包 括 数 据 操 
作 和 一 系列 分 析 事 件 ,例如 在 Postgress SQL 和 其 他 大 数据 源 上 的 分 段 数据 挖掘 技术 ( 例 
如 ， 首 先 选择 前 100 名 顾客 ， 然 后 运行 描述 性 统计 和 聚 类 )。 
€ Openrefine ( 以 前 称 为 Google Refine ) [12] 是 一 个 免费 、 开 源 、 强 大 的 杂乱 数据 处 理工 
具 。 这 是 一 个 流行 的 带 GUI 的 工具 ， 用 于 执行 数据 转换 ， 而 且 是 目前 可 用 的 最 强大 的 
免费 工具 之 一 。 
€ Data Wirangel[13] 和 OpenRefine 相似 ， 是 一 个 用 于 数据 清洗 和 转换 的 交互 式 工具 。Data 




























































































































































































































































































































































































































































































































































































2.4 第 3 阶段 : 模型 规划 























Wrangler 是 斯 坦 福 大 学 开发 的 ， 可 以 对 一 个 给 定 的 数据 集 执行 许多 转换 。 此 外 ， 数 据 

转换 的 输出 可 以 使 用 JAVA 或 Python 处 理 。 这 个 特性 的 优点 是 , 可 以 通过 Data Wrangler 

的 GUI 界面 来 操控 数据 的 一 个 子 集 ， 然 后 相同 的 操作 可 以 以 JAVA 或 Python 代码 的 方 

式 用 来 在 本 地 分 析 沙 箱 中 对 更 大 的 完整 数据 集 进行 离线 分 析 。 
在 第 2 阶段 , 数据 科学 团队 需要 来 自 IT 部 门 、DBA 或 EDW 管理 员 的 帮助 ， 以 获取 需要 使 
的 数据 源 。 


2.4 第 3 阶段 : 模型 规划 


在 第 3 阶段 ， 如 图 2.5 所 示 ， 数 据 科学 团队 需要 确定 要 应 用 到 数据 上 的 候选 模型 ， 以 便 根 
据 项 目的 目标 进行 数据 聚 类 、 数 据 分 类 ， 或 者 发 现 数据 间 的 关系 。 团 队 在 第 1 阶段 时 通过 熟悉 
数据 和 理解 业务 问题 或 领域 而 形成 的 关于 数据 的 初始 假设 ， 会 在 本 阶段 得 以 应 用 。 这 些 假设 有 
助 于 团队 设 定 要 在 第 4 阶段 执行 的 分 析 ， 以 及 选择 正确 的 方法 来 实现 分 析 目 标 。 
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我 是 否 有 足够 的 信息 
来 制定 分 析 方案 并 交 
给 团队 成 员 传阅 ? 
1 
2t? 发 现 
我 是 否 有 足够 
多 的 高 质量 数 
实施 数据 准备 据 用 于 构建 分 
析 模 型 ? 
5 [5] 
沟通 结果 规划 模型 
4 
建立 模型 
pi 2M, 
SARI i em 


图 2.5 ”模型 规划 阶段 





第 2 章 数据 分 析 生 命 周 期 





























以 下 是 这 个 阶段 可 以 考虑 的 几 项 活动 。 
@ 评估 数据 集 的 结构 。 数 据 集 的 结构 是 决定 下 一 阶段 使 用 的 工具 和 分 析 技 术 的 一 个 重要 
因素 。 比 如 分 析 文 本 数据 和 分 析 交 易 数据 需要 使 用 不 同 的 工具 和 方法 。 
e 确保 分 析 技 术 能 够 使 得 团队 达成 业务 目标 ， 验 证 或 否定 工作 假设 。 
确定 使 用 单个 模型 还 是 一 系列 技术 作为 分 析 工 作 流 的 一 部 分 。 一 些 示例 模型 包 
规则 (第 5 章 ) 和 逻辑 回归 (第 6 划 )。 其 他 工具 ， 比 如 Alpine Miner， 让 用 户 可 以 建 
立 一 系列 分 析 步 又， 可 以 作为 前 端 用 户 界 面 CUI) 在 PostgreSQL 中 操控 大 数据 源 。 
除了 上 面 列 出 的 考量 之 外 ， 人 研究 和 了 解 其 他 数据 分 析 师 大 概 如 何 解决 一 些 特定 问题 也 是 
党 有 用 的 。 根 据 给 定 的 数据 种 类 和 资源 ， 评 佑 是否 有 相似 的 现成 的 可 用 方法 ， 还 是 希 要 他 
的 方法 。 通 过 学 习 别 人 在 不 同 的 垂直 行业 和 和 领域 解决 类 似 问 题 的 方法 ， 团 队 经 常 可 以 获得 许 
灵感 。 表 2.2 总 结 了 若干 垂直 行业 ， 和 和 之 前 用 于 相关 业务 领域 的 分 类 模型 和 技术 。 通 过 这 些 ] 
作 可 以 让 团队 了 解 到 别人 如 何 解决 类 似 的 问题 , 为 团队 在 模型 规划 阶段 提供 一 系列 的 候选 模型 。 


表 2.2 垂直 行业 中 模型 规划 的 研究 








































































































































































































































































































































































































EVI 



























































TT 






















































































fnm 
t E 
M 
INN mais 
- 

































































MN 















































































































































[d 











































































































































































































市 场 部 门 使 用 的 分 析 技 术 / 方 法 

快 消 行业 多 元 线性 回归 、 主 动 相关 决策 理论 CARD). WRH 

零售 银行 多 元 回归 

零售 业务 逻辑 回归 、ARD、 决 策 树 

无 线 通信 神经 网 络 、 决 策 树 、 分 层 模糊 神经 网 络 系统 、 规 则 进化 、 逻 辑 回归 






































2.4.1 数据 探索 和 变量 选择 


虽然 有 些 数据 探索 发 生 在 数据 准备 阶段 , 但 是 这 些 活动 主要 集中 在 数据 卫生 (data hygiene ) 
和 评估 数据 本 身 的 质量 。 在 第 3 阶段 ， 数 据 探 索 的 目标 是 理解 变量 之 间 的 关系 ， 以 便 决 定 变 上 
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的 选择 和 方法 ， 并 了 解 问题 领域 。 同 数据 分 析 生 命 周 期 的 早期 阶段 一 样 ， 花 费时 间 并 集中 注意 
力 在 数据 探索 这 一 准备 性 工作 非常 重要 ， 可 以 让 随后 的 模型 选择 和 执行 更 加 容易 和 有 效 。 使 用 
工具 进行 数据 可 视 化 是 数据 探索 的 常用 手段 ， 有 助 于 团队 在 较 高 的 层次 上 预览 数据 和 评估 变量 
之 间 的 关系 。 

在 许多 情况 下 ， 利 益 相关 者 和 领域 专家 知道 数据 科学 团队 应 该 考虑 和 分 析 什 么 样 的 数据 。 
他 们 的 某 些 猜测 甚至 可 能 导致 了 项 目的 起 源 。 通 常情 况 下 ,利益 相关 者 对 问题 和 业务 非常 了 解 ， 
尽管 他 们 可 能 不 了 解数 据 的 细微 之 处 ,或 者 用 于 验证 或 否定 一 个 假设 所 需要 的 模型 。 在 其 他 时 
候 ， 利 益 相 关 者 可 能 是 正确 的 ， 但 是 是 基于 错误 的 原因 ( 例如 ， 他 们 可 能 知道 一 种 现存 的 关联 
关系 ,但 是 却 为 这 种 关联 关系 推 煌 出 了 一 个 错误 的 原因 )。 同 时 ,数据 科学 家 必须 用 一 种 客观 的 
思维 方式 来 考虑 问题 ， 并 准备 质疑 所 有 假设 。 

















































































































随 着 团队 开始 质疑 到 来 的 假设 并 检验 项 目 发 起 人 和 利益 相关 者 的 一 些 初始 想法 ， 他 们 需要 

















2.4 第 3 阶段 : 模型 规划 
































考虑 输入 和 需要 的 数据 ， 然 后 必须 检查 这 些 输入 数据 是 否 与 项 目 计划 预测 或 分 析 的 结果 存在 关 
联 性 。 某 些 方法 和 模型 类 型 比 其 他 方法 能 够 更 好 地 处 理 相关 变量 。 依 据 试图 解决 的 问题 ， 团 队 
可 能 需要 通过 考虑 蔡 换 方法 ， 减 少数 据 和 输入 的 数量 ， 或 转换 输入 来 寻找 应 对 给 定 业 务 问 题 的 最 
佳 方法 。 这 些 技术 将 在 第 3 章 和 第 6 章 进 一 步 探讨 。 
这 种 方法 的 关键 是 捕捉 最 本 质 的 预测 因子 (predictor) 和 变量 ， 而 不 是 考虑 人 们 认为 可 
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i S RE— ^P 3E o 以 这 种 方式 着 手 处 理 问 题 需要 迭代 和 测试 来 识别 最 本 质 的 用 
析 的 变量 。 团队 应 该 计划 测试 在 模型 中 的 一 系列 变量 , 然后 专注 于 最 重要 和 最 具 影响 力 的 









































































































































































































































如 果 团 队 计划 运行 回归 分 析 ， 需 要 确定 模型 的 候选 预测 因子 和 结果 变量 。 需 要 计划 创建 能 
决定 结果 的 变量 ， 而 且 该 变量 能 表现 出 与 结果 而 不 是 其 他 输入 变量 具有 强 关联 。 对 于 能 干扰 这 
些 模型 的 有 效 性 的 问题 ， 比 如 序列 相关 性 、 多 重 共 线性 ， 以 及 其 他 典型 数据 建 模 的 挑战 ， 要 保 
持 艾 惕 。 有 时 ， 通 过 重 塑 一 个 给 定 问题 就 能 避免 这 些 问题 。 另 外 ， 有 时 候 需 要 做 的 就 是 确定 术 
关 性 (“ 黑 盒 预测 ”), 而 在 其 他 情况 下 ,项 目的 目标 是 更 好 地 理解 
甩 队 希望 模型 有 解释 力 ， 而 且 需 要 在 不 同 的 情况 下 使 用 不 同 的 数 
压力 测试 。 
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FR o 在 后 j WP, 
集 来 预测 模型 或 对 模型 进行 
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2.4.2 ”模型 的 选择 


在 模型 选择 的 子 阶段 ， 团 队 的 主要 目标 是 基于 项 目的 最 终 目标 来 选择 一 种 分 析 技 
者 一 系列 候选 技术 。 在 本 书 中 ， 模 型 是 一 种 泛 指 。 在 这 种 情况 下 ， 一 个 模型 指 的 是 
种 抽象 。 人 们 观察 到 事件 发 生 在 真实 场景 中 ， 或 者 带 有 实时 数据 ， 然 后 试图 通过 
和 条 件 来 构建 模仿 这 种 行为 的 模型 。 就 机 器 学 习 和 数据 挖 气 而 言 ， 这 些 } 
若干 类 技术 ， 比 如 分 类 、 关 联 规则 和 聚 类 。 有 了 这 些 潜 在 的 模型 类 别 ， 团 队 可 以 过 滤 出 几 
可 行 的 模型 ， 以 尝试 解决 一 个 给 定 问 题 。 第 3 章 和 第 4 章 中 将 介绍 更 多 为 常见 业务 问题 匹 
模型 的 细节 。 
在 处 理 大 数据 时 需要 额外 考虑 的 是 确定 团队 是 否 将 使 用 最 合适 的 技术 处 理 结构 化 数据 、 
非 结 构 化 数据 或 混合 数据 。 例 如 ， 团 队 可 以 利用 MapReduce 分 析 非 结构 化 数据 ， 这 将 在 第 
10 章 重 点 介绍 。 最 后 ， 团 队 应 该 注意 鉴别 和 记录 自己 所 做 的 用 来 选择 构建 初始 模型 的 建 模 
假设 。 
通常 ， 团 队 使 用 统计 软件 包 (例如 ，R、SAS Bk Matlab) 来 创建 初始 模型 。 虽 然 这些 工 具 
为 数据 挖 握 和 机 器 学 习 算法 而 设计 ， 但 是 在 将 模型 应 用 到 非常 大 的 数据 集 时 (这 在 大 数据 中 4 
常见 )， 这 些 工具 可 能 会 有 局 限 性 。 在 这 种 情况 下 ， 当 团队 进行 到 生命 周期 第 6 阶段 提 及 的 试点 
阶段 ， 可 能 会 考虑 重新 设计 这 些 算法 ， 以 在 数据 库 中 运行 。 
决定 了 要 尝试 的 模型 类 型 ， 而 且 已 经 具备 了 足够 的 知识 来 细 化 分 析 计 划 ， 团 队 就 可 以 
进入 到 模型 建立 阶段 。 在 进入 这 个 阶段 之 前 ， 需 要 建立 关于 分 析 模 型 的 通用 方法 论 、 对 要 使 用 
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第 2 章 数据 分 析 生 命 周 期 






































的 变量 和 技术 有 深刻 的 理解 ， 以 及 有 关于 分 析 流 程 的 描述 或 图 
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2.4.3 ”模型 设计 阶段 的 常用 工具 























































































































许多 工具 可 以 在 这 个 阶段 使 用 。 以 下 是 几 种 常见 的 工具 。 
e 了 RII4] 有 一 套 完整 的 建 模 能 力 ， 提 供 了 一 个 腿 好 的 环境 来 构建 具有 高 质量 代码 的 解释 模 










































































型 。 此 外 ， 它 还 能 通过 ODBC 连接 与 数据 











D, 
库 交 互 ， 并 通过 开源 扩展 包 对 大 数据 进行 统 
计 测 试 和 分 析 。 这 两 个 特点 使 得 R 非常 适合 对 大 数据 执行 统计 检验 和 分 析 。 在 本 书写 
VEIT, R 包含 近 5000 个 用 于 数据 分 析 和 图 形 展示 的 扩展 包 。R 的 新 包 发 布 很 频繁 ， 而 
很 多 公司 提供 关于 R 的 增值 服务 (比如 ， 培训、 指导 和 最 佳 实践 )， 并 对 它 进 行 打包 ， 
使 得 它 更 加 容易 使 用 和 更 加 健壮 。 类 似 的 现象 在 1980 年 代 末 和 1990 年 代 初 曾 发 生 在 
Linux 身上 , 当时 很 多 公司 对 Linux 进行 打包 , 以 使 Linux 更 加 容易 被 公司 使 用 和 部 署 。 
R 和 文件 提取 配合 使 用 可 以 实现 最 佳 性 能 的 离线 分 析 ， 而 R 和 ODBC 连接 配合 使 用 可 
以 实现 动态 查询 和 更 快 地 开发 。 
€ SQL Analysis services[15] 可 以 执行 数据 库 内 分 析 实 现 常见 数据 挖 气功 能， 包括 聚合 和 
本 预测 模型 。 
€ SAS/ACCESS[16] 通 过 多 种 数据 连接 (比如 ，OBDC、JDBC 和 OLE DB ) 提供 SAS Fil 
分 析 沙 箱 之 间 的 集成 。SAS 本 身 通常 是 用 于 文件 提取 ,但 是 有 了 SAS/ACCESS， 用 户 
可 以 连接 到 关系 型 数据 库 ( 如 Oracle 或 Teradata ) 和 数据 仓库 ( 如 Greenplum 或 Aster )、 
文件 和 企业 应 用 (如 SAP 和 Salesforce.com )。 
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2.5 第 4 阶段 : 模型 建立 


在 第 4 阶段 ， 数 据 科 学 团队 需要 创建 用 于 训练 、 测 试 和 生产 环境 的 数据 集 。 这 些 数据 集中 
有 一 部 分 “训练 数据 ”被 数据 科学 家 用 于 训练 分 析 模型 ， 另 一 部 分 “留存 数据 ”或 “测试 数据 ” 
] 于 测试 分 析 模 型 ( 具体 细节 将 在 第 3 章 详 细 讨论 )。 在 这 个 过 程 中 ， 需 要 确保 用 于 模型 和 分 析 
的 训练 和 测试 数据 集 足够 健壮 。 可 以 简单 地 认为 ， 训 练 数据 集 用 于 运行 模型 的 初始 实验 ， 然 后 
测试 数据 集 用 于 验证 模型 方法 。 

在 建 模 阶 段 ， 如 图 2.6 Aras, 一 个 分 析 模 型 是 基于 训练 数据 开发 的 ， 并 用 测试 数据 进行 评 
。 模 型 规划 和 模型 构建 这 两 个 阶段 可 能 稍微 重 篆 ， 并 且 在 实践 中 可 能 在 这 两 个 阶段 间 来 回 反 
复 ， 直 到 确定 最 终 模型 。 

虽然 开发 模型 所 需要 的 建 模 技 术 和 逻辑 可 能 非常 复杂 ， 但 是 与 准备 数据 和 定义 方法 相 比 ， 
该 阶段 花费 的 时 间 可 能 会 较 短 。 一 般 来 说 ， 更 多 的 时 间 会 花费 在 准备 、 学 习 数 据 ( 第 1 阶段 和 
第 2 阶段 ) 和 演示 结果 ( 第 5 阶段 ) 上 。 虽 然 看 起 来 更 加 复杂 ， 相 比 而 言 第 3 阶段 和 第 4 阶段 
一 般 较 为 短暂 



































































































































































































































































































































































































































































































































































































































































































































2.5 第 4 阶段 : 模型 建立 








我 是 否 有 足够 的 信息 
来 制定 分 析 方 案 并 交 
给 团队 成 员 传阅 ? 
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建立 模型 
我 是 否 已 经 确定 尝试 
真 的 失败 了 ? iE Hw 


图 2.6 ” 建 模 阶 段 


在 这 个 阶段 ， 数 据 科 学 团队 需要 运行 在 第 3 阶段 定义 的 模型 。 
在 此 阶段 ， 用 户 运行 分 析 软 件 包 (如 及 或 SAS ) 中 的 模型 来 测试 文件 提取 和 小 数据 集 ， 
以 此 评估 模型 在 小 规模 数据 上 的 有 效 性 和 结果 。 侈 如 ， 确 定 模型 是 否 适用 于 大 部 分 数据 并 有 具 
有 健壮 的 预测 能 力 。 这 时 可 以 通过 改进 模型 来 优化 结果 ， 比 如 适当 修改 变量 输入 或 减少 关联 
变量 。 在 第 3 阶段 ， 团队 可 能 对 关联 变量 或 有 问题 的 数据 属性 已 经 有 所 认 知 ， 并 将 在 模型 实 
际 运行 后 对 其 予以 证 实 或 否定 。 当 深入 到 构建 模型 和 转换 数据 的 细节 时 ， 常 常 需 要 做 很 多 与 
是 模 的 数据 和 方法 相关 的 小 决策 。 项 目 完成 后 这 些 细节 很 容易 被 态 记 。 因 此 ， 在 这 个 阶段 记 
录 模 型 的 结果 和 逻辑 至 关 重 要 。 此 外 ， 在 建 模 过程 中 所 做 的 任何 有 关 数 据 或 背景 的 假设 也 必 
须 被 悉心 地 记录 。 
为 了 创建 用 于 特定 场景 的 的 健壮 模型 ， 需 要 深思 熟 虑 ， 以 确保 开发 的 模型 最 终 能 够 满足 第 
1 阶段 提出 的 目标 。 需 要 考虑 的 问题 包括 下 面 这 些 。 

e 模型 是 否 在 测试 数据 上 有 效 且 准确 ? 
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e 在 领域 专家 看 来 ， 模 型 的 输出 和 行为 是 否 有 意义 ? 也 就 是 说 ， 模 型 给 出 的 答案 是 否 说 
得 通 ? 


© 模型 的 参数 值 在 业务 背景 下 是 否 有 意义 ? 





































































































































































































e ”模型 是 否 足 够 精确 ? 
e ”模型 是 否 避 免 了 不 可 容忍 的 错误 ? 例如， 取决 于 场景 ， 误 报 可 能 比 漏 报 更 严重 ， 或 者 
过 来 KEB 3 



































反 过 来 〈 误 报 和 漏 报 TERIS 7 半 进 一 步 讲解 )。 
e ”是否 需要 更 多 输入 数据 ? 是 否 有 输入 需要 进行 转换 或 删 减 ? 
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eR HIE IE Rei TOR? 
e ”是 否 需要 用 模型 的 男 一 种 形式 来 解决 业务 问题 ? 如 有 果 是 ， 回 到 模型 计划 阶段 ， 修 改建 模 
方法 。 
一 旦 数据 科学 团队 可 以 判断 出 模型 已 经 足够 健壮 ， 或 者 团队 已 经 失败 ， 就 可 以 进入 数据 分 



























































析 生 命 周 期 的 下 一 个 阶段 。 





2.5.1 模型 构建 阶段 中 的 常用 工具 


在 这 个 阶段 有 许多 工具 可 以 使 用 ， 主 要 侧重 于 统计 分 析 或 者 数据 挖 

] 的 工具 包括 ( 但 不 限制 于 ) 下 面 儿 种 。 

e 商业 工具 。 

m SAS Enterprise Miner[17] 人 允许 用 户 在 大 量 企业 数据 上 运行 预测 性 和 描述 性 模型 。 

它 可 以 与 其 他 大 型 数据 存储 相通 , 能 与 许多 工具 配合 使 用 , 适合 企业 级 计算 和 分 析 。 

W SPSS Modeler[18] (IBM 公司 出 品 ， 现 在 称 为 IJBM SPSS Modeler ) 通过 GUI 探索 

和 分 析 数 据 。 
“Matlab[19] 提 供 了 一 种 高 级 语言 来 运行 各 种 数据 分 析 、 算 法 和 数据 探索 。 

W Alpine Miner[11] 为 用 户 提供 了 GUI 前 端 来 开发 分 析 工 作 流程 ， 并 在 后 端 与 大 数据 

具 和 平台 进行 交互 。 

W STATISTICA[20]f! Mathematica[21] 是 一 种 颇 受 欢迎 且 评 价 甚 高 的 数据 挖掘 和 分 

析 工 具 。 

e KITA. 

E R 和 PL/R[14]，R 在 模型 计划 阶段 描述 过 ，PL/R 是 一 种 过 程 型 语言 ， 用 于 R 和 

PostgreSQL 的 交互 ， 即 在 数据 库 中 执行 R 的 命令 。 与 在 内 存 中 运行 R 相 比 ， 这 种 

技术 提供 了 更 高 的 性 能 和 更 好 的 可 扩展 性 。 

四 ”Octava[22]， 用 于 计算 机 建 模 的 一 款 免费 软件 ,能 实现 部 分 Matlab 的 功能 。 因 为 免 

费 ， 它 被 用 于 许多 大 学 的 机 器 学 习 教 学 中 。 

国 。 WEKA[23] 是 一 个 带 有 分 析 工 作 台 的 免费 数据 挖掘 软件 包 。WEKA 中 创建 的 函数 可 

以 在 Java 中 运行 。 
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软件 。 在 这 个 阶段 中 
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2.6 第 5 阶段 : 沟通 结果 





















































W Python 是 一 种 编程 语言 , 提供 了 机 器 学 习 和 分 析 工 具 包 , 比如 scikit-learn 、numpy、 
scipy、pandas 和 相关 的 数据 可 视 化 ( 基于 matplotlib )。 
m SQL 数据 库 内 应 用 , 比如 MADIlib[24], 提供 了 一 种 内 存 桌 面 分 析 工 具 的 替代 方案 。 
MADIib 提供 了 一 套 开源 的 机 器 学 习 算法 库 , 可 运行 在 PostgreSQL 或 GreenPlum Zi 
据 库 系 统 内 。 
































































































































2.6 第 5 阶段 : 沟通 结果 
在 运行 模型 之 后 ， 团 队 需 要 将 建 模 的 成 果 和 之 前 建立 的 成 功 与 失败 的 衡量 标准 进行 比较 。 
在 第 5 阶段 中 ， 如 图 2.7 所 示 ， 团 队 需 要 考虑 以 何 种 最 佳 方式 向 团队 成 员 和 利益 相关 者 阐述 项 
的 发 现 和 成 果 ， 包 括 和 警告 、 假 设 和 结果 的 不 足 。 因 为 项 目 演示 常常 面向 整个 组 织 机 构 ， 因 此 
需要 采用 听众 可 以 理解 的 方式 来 恰当 地 表达 成 果 和 定位 发 现 。 
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pad 
我 是 否 有 足够 的 信息 
来 制定 分 析 方 案 并 交 
给 团队 成 员 传阅 ? 
1 
6 2 我 是 否 有 足够 
多 的 高 质量 数 
实施 数据 准备 据 用 于 构建 分 
析 模 型 ? 
[5] 3 
沟通 结果 规划 模型 
4 
建立 模型 
我 是 否 已 经 确定 尝试 
dO RATES 哪 各 分 析 模 理 ? 我 能 
真 的 失败 了 ? pc rire 








图 2.7 ”沟通 结果 阶段 
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在 第 5 阶段 ， 团 队 需 要 确定 项 目 是 否 成 功 达到 既定 目标 。 许 多 时 候 ， 人 们 不 愿意 承认 失败 ， 
但 在 这 个 情况 下 失败 不 应 该 被 视 为 真正 的 失败 ， 而 是 数据 不 能 充分 地 验证 或 否定 一 个 给 定 的 假 
设 。 这 上 听 起 来 有 些 违 背 常理 。 但 是 ， 团 队 在 确定 数据 是 否 会 证 明 或 否定 在 第 1 阶段 中 提 到 的 假 
设 时 必须 足够 严谨 。 有 时 团队 只 做 了 一 些 肤 浅 的 分 析 ， 其 不 足以 验证 或 否定 一 个 假设 。 有 时 折 
队 做 了 深入 的 分 析 却 试图 展示 并 不 存在 的 结果 。 在 分 析 数 据 时 要 在 这 两 个 极端 之 间 找 到 平衡 ， 
在 展示 实际 结果 时 要 实事 求 是 。 
当 进行 评 佑 时， 要 确定 结果 是 否 有 统计 上 的 显著 意义 和 有 效 性 。 如 果 是 的 话 ， 要 明 丰 
哪些 提供 了 显著 发 现 的 结果 。 如 果 结 果 是 无 效 的 ， 要 考虑 如 何 对 模型 进行 
生成 有 效 结果 。 在 这 一 步 中 ， 要 评估 结果 并 确定 哪些 数据 出 人 意料 ， 哪 些 与 
第 1 阶段 提出 的 假设 一 致 。 将 实际 结果 与 早期 制定 的 想法 相 比较 ， 可 以 产生 额外 的 想法 和 
E 段 设 ， 则 将 错过 这 些 额 外 的 想法 和 见解 。 

此 时 ， 团 队 应 该 已 经 确定 哪 种 或 哪些 模型 可 以 最 佳 地 解决 分 析 挑 战 。 此 外 ， 团 队 应 该 已 经 
对 项 目的 某 些 发 现 有 所 认 知 。 在 这 个 阶段 ， 一 种 最 佳 实践 是 记录 所 有 的 发 现 ， 然 后 
重要 的 发 现 分 享 给 利益 相关 者 。 此 外 ， 团 队 需 要 反映 这 些 发 现 的 含义 和 评估 其 业务 价值 。 取 决 
于 模型 产生 的 结果 ， 团 队 可 能 需要 花费 时 间 量化 结果 带 来 的 业务 影响 ， 以 帮助 准备 项 目 演示 和 
展示 发 现 的 价值 。 Doug Hubbard 的 著作 [6] 为 如 何 评估 企业 无 形 资产 和 量化 看 似 不 可 预测 的 事物 
价值 提供 了 见解 。 
既然 团队 已 经 运行 了 模型 ， 完 成 了 周密 的 发 现 阶段 ， 并 对 数据 集 有 了 充分 了 解 ， 就 应 该 反 
思 项 目 ， 思 考 项 目 遇 到 的 阻碍 和 可 以 改进 的 方面 。 要 为 后 续 工 作 或 现 有 过 程 的 改进 提供 建议 ， 
还 要 考虑 每 一 位 团队 成 员 和 利益 相关 者 需要 怎样 履行 其 个 人 职责 。 例 如 ， 项 目 发 起 人 必须 为 项 
目 提 供 支 持 ， 利 益 相关 者 必须 理解 模型 如 何 影响 流程 〈 例 如， 如 果 团 队 创建 了 一 个 模型 用 于 预 
测 客户 流失 , 市 场 营销 团队 必须 理解 如 何在 规划 措施 时 使 用 这 个 模型 )。 生产 工程 师 需要 实施 已 
经 完成 的 工作 。 此 外 , 在 这 个 阶段 要 强调 工作 的 商业 价值 , 并 开始 在 生产 环境 中 实施 项 目 成 果 。 

这 一 阶段 完成 时 ， 团 队 将 会 记录 从 分 析 中 得 出 的 重要 发 现 和 主要 见解 。 这 个 阶段 交付 的 
成 果 对 于 利益 相关 者 和 赞助 商 来 说 将 是 最 看 得 见 的 ， 所 以 要 小 心 清楚 地 阐述 结果 、 方 法 论 和 
发 现 的 商业 价值 。 第 12 章 将 详细 讲解 数据 可 视 化 的 工具 和 引用 文献 。 
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2.7 第 6 阶段 : 实施 


在 最 后 这 个 阶段 ， 团 队 更 广泛 地 言传 项 目的 好 处 ， 并 建立 一 个 试点 项 目 以 可 控 的 方式 来 部 
嗜 项 目 成 果 ， 然 后 再 将 成 果 应 用 到 整个 企业 或 者 用 户 生 态 系统 。 在 第 4 阶段 ， 团 队 在 分 析 沙 箱 
中 对 模型 进行 评估 。 如 图 2.8 所 示 , 第 6 阶段 是 大 多 数 分 析 团 队 第 一 次 在 生产 环境 中 部 署 新 的 
分 析 方 法 或 模型 。 团 队 在 大 规模 部 署 模 型 之 前 ， 可 以 先 在 小 范围 内 实验 性 地 部 罩 ， 从 而 学 习 部 
署 经 验 和 有 效 地 管控 风险 。 这 种 方法 使 得 团队 可 以 在 小 规模 的 生产 环境 中 研究 模型 的 性 能 和 本 
关 约 束 ， 并 在 完全 部 署 前 作 相 应 的 调整 。 在 试点 项 目 中 ， 团 队 可 能 需要 考虑 在 数据 库 中 运 
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2.7 第 6 阶段: 实施 
























































法 ， 而 不 是 在 R 等 内 存 工具 中 ， 因 为 算法 跑 在 数据 库 中 明显 比 在 内 存 中 更 快 和 更 高 效 ， 尤 其 是 
当 数 据 集 很 大 时 。 









































我 是 否 有 足够 的 信息 
来 制定 分 析 方 案 并 交 
给 团队 成 员 传 阅 ? 





沟通 结果 


分 析 模 型 是 否 足 
够 健壮 ? 我 们 是 否 
真 的 失败 了 ? 


规划 模型 


我 是 否 已 经 确定 尝试 
哪 种 分 析 模 型 ? 我 能 


进一步 完善 分 析 方 
案 吗 ? 


图 2.8 ”模型 实施 阶段 








cu 


企 设 定 试点 项 目 中 涉及 的 工作 时 ， 还 要 考虑 针对 一 组 离散 的 产品 或 单条 业务 线 在 生产 环境 
中 运行 模型 的 情况 ， 这 将 在 实际 场景 中 测试 模型 。 这 让 团队 从 部 署 中 学 习 ， 并 在 整个 企业 发 布 
模型 前 进行 任何 必要 的 调整 。 请 注意 ， 这 个 阶段 会 引入 一 系列 新 的 团队 成 员 ， 通 常 是 负责 生 
环境 的 工程 师 ， 他 们 有 不 同 于 核心 项 目 团 队 的 新 问题 和 关注 点 。 该 技术 团队 需要 确保 模型 能 在 
生产 环境 中 平滑 运行 ， 并 能 集成 到 相关 的 业务 流程 。 
实施 阶段 的 任务 包括 建立 一 个 对 模型 精度 持续 检测 的 机 制 ， 在 精度 下 降 时 ， 设 法 重新 
调试 模型 。 如 有 可 能 ,设计 当 模 型 运行 出 界 ( out-of-bounds ) 时 产生 警报 1 
出 模型 训练 的 范围 ， 这 可 能 会 导致 模型 的 输出 不 准确 或 无 效 。 如 果 该 
的 数据 来 重新 训练 模型 。 
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分 析 项 目 常常 会 对 人 们 认识 肤浅 或 者 认为 不 可 能 探索 的 业务 、 问 题 或 想法 产生 新 的 见解 。 















































































































































要 满足 大 多 数 利益 相关 者 的 需求 ,可 以 创建 四 种 主要 可 交付 成 果 。 其 创建 方法 将 在 第 12 章 中 详 
细 讨 论 。 

图 2.9 描述 了 一 个 分 析 项 目 中 每 一 个 主要 利益 相关 者 的 关键 输出 ,以 及 他 们 预期 的 项 目 
结论 。 





























e ”业务 用 户 通常 试图 确定 项 目的 结果 对 业务 产生 的 效益 和 影响 。 

e 项目 发 起 人 通常 会 问 问题 ， 关 于 项 目的 业务 影响 力 、 风 险 和 投资 
项 目 在 组 织 机 构 内 外 的 推广 方式 。 

e 项 目 经 理 需 要 确定 该 项 目 是 否 按时 完成 ， 是 否 控制 在 预算 内 ， 以 及 目标 是 否 达成 。 

e 商业 智能 分 析 师 需要 知道 他 管理 的 报告 和 仪表 板 是 否 会 被 影响 以 及 是 否 需要 改变 。 

e 数据 工程 师 和 数据 库 管理 员 (DBA) 通常 需要 共享 他 们 在 分 析 项 目 中 的 代码 ， 并 创建 
技术 文档 来 介绍 实现 细节 。 

e 数据 科学 家 需要 共享 代码 并 向 他 的 同伴 、 经 理 和 其 他 利益 相关 者 解释 模型 。 

虽然 这 7 个 角色 在 一 个 项 目 中 有 各 自 的 兴趣 点 ， 这 些 兴 趣 点 通常 存在 重 篆 ， 其 中 大 部 分 可 

以 通过 4 种 主要 的 可 交付 成 果 来 满足 。 
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报 率 (ROI )， 以 及 
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来 自 一 个 成 功 分 析 项 目的 关键 输出 


代码 was 针对 分 析 师 的 演示 文档 
ee 技术 规范 mum 项 目 发 起 人 的 演示 文档 
Business User 








图 2.9 一 个 成 功 的 分 析 项 目的 主要 产 出 



























































级 别 利益 相关 者 的 信息 ， 其 中 有 些 关 键 信 
图 案 ， 以 方便 演示 人 员 进 行 讲解 ， 同 时 











e 针对 项 目 发 起 入 的 演示 文档 : 这 包括 名 
息 可 以 帮助 他 们 进行 决策 。 文 档 要 注重 简洁 
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2.8 案例 研究 : 全 球 创新 网 络 和 分 析 ( GINA) 





















































































































































































































































































































































































































































便于 听众 掌握 。 
e 针对 分 析 师 的 演示 文档 : 描述 业务 流程 的 变化 和 报告 的 变化 。 数 据 科 学 家 可 能 想 要 4 
节 ， 并 且 习 惯 于 技术 图 表 (比如 ， 观 测 者 操作 特征 (ROC) 曲线 、 密 度 图 和 在 第 3 章 
和 第 7 章 所 示 的 直方 图 )。 
@ 针对 技术 人 员 的 代码 。 
e 实施 代码 的 技术 规范 。 
一 般 而 言 ， 当 受众 越 是 高 管 ， 越 需要 表达 简洁 。 大 多 数 高 管 项 目 发 起 人 每 周 或 每 天 都 会 参 
加 很 多 报告 会 ， 因 此 确保 陈述 迅速 切入 要 点 ， 并 阐述 结果 对 发 起 人 组 织 机 构 的 价值 。 例 如 ， 如 
果 团 队 正在 与 一 家 银行 合作 分 析 信 用 卡其 诈 的 案例 ， 则 要 重点 强调 坎 诈 频率 ， 在 过 去 一 个 月 或 





































































































一 年 发 生 欺 诈 的 次 数 ， 以 及 对 银行 造成 的 成 本 或 营 收 的 影响 (或 者 关注 对 立 面 ， 即 如 果 解 决 ] 
次 诈 问 题 ,银行 可 以 增加 多 少 收入 )。 这 样 做 比 深层 次 的 方法 论 更 能 体现 业务 影响 力 。 演 示 则 需 
要 包括 与 分 析 方 法 和 数据 源 相 关 的 支持 信息 ， 但 通常 只 作为 辅助 细节 ， 或 确保 受众 对 分 析 数 据 
使 用 的 方法 有 信心 。 

































































































































































































































































































































































































































































































































































































































































当 向 拥有 量化 背景 的 受众 做 介绍 时 ， 应 该 花 更 多 的 时 间 来 介绍 方法 论 和 发 现 。 这 时 ， 革 
队 可 以 更 加 详细 地 描述 成 果 、 方 法 论 ， 以 及 分 析 试 验 。 这 些 受众 对 技术 更 感 兴趣 ， 尤 其 是 当 
本 队 开 发 了 一 种 新 的 方法 来 处 理 或 分 析 数 据 ， 而 且 该 方法 可 以 在 将 来 重用 或 者 用 到 类 似 的 问 
题 上 。 此 外 ， 尽 量 使 用 图 例 或 数据 可 视 化 。 虽 然 可 能 需要 花费 更 多 的 时 间 来 制作 图 例 ， 但 是 
和 人们 更 容易 记 住 用 图 片 来 演示 的 内 容 ， 而 不 是 一 长 串 信 息 [25]。 数 据 可 视 化 和 演示 将 在 第 12 





















































章 继 续 讨 论 。 


2.8 案例 研究 : 全 球 创新 网 络 和 分 析 (GINA) 


EMC 全 球 创新 网 络 和 分 析 C GINA ) 团队 由 一 群 在 EMC 全 球 各 地 卓越 中 心 (COE ) 工作 的 
高 级 技术 专家 构成 。 这 个 团队 的 宗旨 是 吸引 全 球 卓越 中 心 (COE) 员工 来 从 事 创 新 、 研 究 和 大 
学 的 合作 伙伴 关系 。 在 2012 年 , 新 任职 的 团队 总 监 想 加 强 这 些 活动 ， 并 建立 一 个 机 制 来 追踪 和 
分 析 相 关 信息 。 此 外 ，GINA 团队 想 要 创建 更 加 健壮 的 机 制 来 记录 他 们 与 EMC 内 部 、 学 术 界 或 
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者 其 他 组 织 机 构 的 思想 领袖 的 非 正 式 对 话 ， 用 来 在 日 后 发 掘 洞 见 。 

GINA 团队 想 要 提供 一 种 在 全 球 范围 内 分 享 想法 ， 以 及 在 地 理 上 相互 远离 的 GINA 成 员 之 
间 分 享 知 识 的 手段 。 它 们 计划 创建 一 个 包含 结构 化 和 非 结构 化 数据 的 存储 库 ， 用 于 实现 下 面 三 
个 主要 月 下 
| =E "ho 





























e 存储 正式 和 非 正 式 的 数据 。 

e 追踪 全 球技 术 专 家 的 研究 。 

e 挖掘 数据 模式 和 洞察 力 ， 以 提高 团队 的 运营 和 战略 。 

GINA 的 案例 研究 展示 了 一 个 团队 如 何 应 用 数据 分 析 生 命 周 期 在 EMC 内 分 析 创 新 数 和 
新 通常 难以 评估 ， 该 团队 想 要 使 用 高 级 分 析 方 法 在 公司 内 部 识别 关键 创新 者 。 





























NI 

































































HU 
o 

[n 
2 










































































第 2 章 数据 分 析 生 命 周 期 





2.8.1 第 1 阶段 : AM 


在 GINA 项 目的 发 现 阶段 ， 团 队 开始 确定 数据 源 。 虽 然 GINA 由 一 群 掌握 许多 不 同 技能 的 
技术 专家 组 成 ， 他 们 对 想 要 探索 的 领域 有 一 些 相关 数据 和 想法 ， 但 缺少 一 个 正式 的 团队 来 执行 
这 些 分 析 。 在 咨询 了 包括 巴 布 森 学 院 (Babson College) 的 知名 分 析 专 家 Tom Davenport, JFK 
理工 学 院 集体 智慧 专家 兼 协同 创新 网 络 ( CoIN, Collaborative Innovation Networks ) 创始 人 Peter 
Gloor 等 专家 后 ， 团 队 决 定 在 EMC 内 部 寻找 志愿 者 来 众 包 工作 。 

本 队 中 的 各 种 角色 如 下 所 示 。 
e 业务 人 员 、 项 目 发 起 人 、 项 目 经 理 : 来 自 于 首席 技术 官办 公 室 的 副 总 裁 。 
e 商业 智能 分 析 师 : KAF IT 部 门 的 代表 

e 数据 工程 师 和 数据 库 管 理 员 (DBA): 来 自 于 IT 部 门 的 代表 。 
e 
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数据 科学 家 : EMC 杰出 工程 师 ， 他 还 开发 了 GINA 案例 研究 中 的 社交 图 谱 。 

























































































发 起 人 想 要 利用 社交 媒体 和 博客 [26] 来 加 速 全 球 创新 和 研究 数据 的 收集 ,并 激励 世界 范 
围 内 的 数据 科学 家 “志愿 者 ”团队 。 鉴 于 项 目 发 起 和 缺少 一 个 正式 的 团队 ， 他 需要 想 办 法 找到 
J 有 愿意 花 时 间 来 解决 问题 的 人 。 数 据 科 学 家 们 往往 热衷 于 数据 ， 项 目 发 起 人 依靠 这 些 

和 人才 的 激情 富有 创新 地 完成 了 工作 挑战 。 

该 项 目的 数据 主要 分 为 两 大 类 。 第 一 类 是 近 5 年 EMC 内 部 创新 竞赛 ,被 称 为 创新 线路 图 ( 以 
前 称 为 创新 展示 )， 提 交 的 创新 想法 。 创 新 线路 图 是 一 个 正式 的 、 有 机 的 创新 过 程 ,来自 世 界 名 
地 的 员工 提交 创新 想法 ， 然 后 被 审查 和 评判 。 最 好 的 想法 被 选择 出 来 进行 最 化 。 因 此 ， 
路 图 的 数据 是 结构 化 数据 和 非 结 构 化 数据 的 混合 ， 结 构 化 数据 包括 创新 想法 的 数量 、 提 交 日 期 
和 提交 者 ， 非 结构 化 数据 包括 该 创新 想法 的 文本 描述 。 

第 二 类 数据 包括 来 自 世 界 各 地 创新 和 研究 活动 的 备忘录 和 笔记 。 这 些 数据 也 包括 结构 化 数 
据 和 非 结 构 化 数据 。 结 构 化 数据 包括 日 期 、 名 称 、 地 理 位 置 等 属性 。 非 结构 化 数据 包括 “ 谁 、 
可 事 、 何 时 、 何 地 ”等 信息 ， 用 来 表示 公司 内 知识 的 增长 和 转移 。 这 种 类 型 的 信息 通常 存在 了 
业务 部 门 ， 对 研究 团队 几乎 不 可 见 。 

GINA 团队 创建 的 10 大 初始 假设 CH ) 如 下 所 示 。 
IH1: 在 不 同 地 理 区 域 的 创新 活动 反映 了 企业 的 战略 方向 。 
IH2: 当 全 球 知 识 转 移 作 为 想法 交付 过 程 的 一 部 分 发 生 时 ， 交 付 想法 所 花 的 时 间 将 减少 。 
IH3: 参与 全 球 知识 转移 的 创新 者 能 更 快 地 交付 想法 。 
IH4: 对 提交 的 创新 想法 可 以 进行 分 析 和 和 评估， 确定 资 助 的 可 能 性 。 
IH5: 某 一 特定 主题 的 知识 发 现 和 增长 可 以 跨 区 域 进行 评估 和 对 比 。 
IH6: 知识 转移 活动 可 以 确定 在 不 同 地 区 的 特定 研究 的 边界 人 员 。 
IH7: 企业 战略 与 地 理 区 域 相对 应 。 
IH8: 频繁 的 知识 扩张 和 转移 活动 缩短 了 从 想法 到 企业 产 出 所 花费 的 时 间 。 
















































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































2.8 ”案例 研究 : 全 球 创新 网 络 和 分 析 ( GINA ) 

















e IH9: 谱系 图 可 以 揭示 什么 时 候 知识 扩展 和 转移 (还 ) 没有 导致 企业 产 出 。 

e IH10: 新 兴 人 研究 课题 可 以 按照 特定 的 思想 者 、 创 新 者 、 边 界 人 员 和 资产 进行 分 类 。 
GINA 的 初始 假设 可 以 被 划分 为 2 大 类 。 
e ”描述 性 分 析 ， 对 当前 正在 发 生 的 能 进一步 激发 创造 力 、 合 作 和 资产 生成 的 事件 进行 描述 。 
e ”预测 性 分 析 ， 建 议 管理 层 未 来 投资 的 方向 和 领域 。 
































































































































































































































2.8.2 第 2 阶段 : 数据 准备 
AIBA TT 部 门 合作 建立 了 一 个 新 的 分 析 沙 箱 用 于 存储 和 实验 数据 。 在 数据 探索 期 间 ,数据 
科学 家 和 数据 工程 师 开始 注意 到 革 些 数据 需要 治理 和 规范 化 。 此 外 ， 团 队 意识 到 某 些 缺失 的 数 
据 集 对 于 检验 一 些 分 析 假设 非常 关键 。 






















































































































































































































































































































































































































































































当 团队 探索 数据 时 ， 他 们 很 快 就 意识 到 ， 如 果 数 据 的 质量 不 够 好 或 者 没有 足够 的 高 质量 数 
据 ， 就 无 法 执行 生命 周期 过 程 中 的 后 续 步 又 。 因 此 ， 确 定 项 目 需要 什么 级 别 的 数据 质量 和 清洗 
度 非 常 重要 。 在 GINA 案例 中 ,团队 发 现 许多 研究 者 和 大 学 人 员 的 名 字 被 拼 错 ， 或 者 在 数据 存 
诸 中 的 首尾 有 空格 。 这 些 看 似 数据 中 的 小 问题 都 必须 在 本 阶段 解决 ， 以 便 在 随后 阶段 更 好 地 分 
析 和 聚合 数据 。 








2.8.8 第 3 阶段 : 模型 规划 


在 GINA 项 目 中 , 对 于 大 部 分 数据 集 来 说 , 似乎 可 以 使 用 社交 网 络 分 析 技 术 来 研究 EMC 的 
创新 者 网 络 。 在 其 他 情况 下 ， 由 于 数据 的 缺乏 很 难 恰当 地 检验 假设 。 针 对 IH9， 团 队 决 定 发 起 
一 个 纵向 研究 来 跟踪 知识 产权 产 出 随时 间 的 变化 。 这 种 数据 收集 将 使 团队 可 以 检验 以 下 两 种 初 
始 假设 。 
e IH8: 频繁 的 知识 扩张 和 转移 活动 缩短 了 从 想法 到 企业 产 出 所 花费 的 时 间 。 
e IH9: 谱系 图 可 以 揭示 什么 时 候 知识 扩展 和 转移 GE) 没有 导致 企业 产 出 。 
对 于 提出 的 纵向 研究 ， 团 队 需 要 建立 研究 的 目标 标准 。 具 体 来 说 ， 团 队 需 要 确定 遍历 了 整 
个 过 程 的 成 功 创意 的 最 终 目 标 。 针 对 研究 范围 要 考虑 以 下 注意 事项 。 
确定 实现 目标 所 要 经 历 的 里 程 碑 。 
追踪 人 们 如 何 从 每 个 里 程 碑 出 发 进化 创意 。 
追踪 失败 的 创意 和 达成 了 目标 的 创意 ， 对 比 两 种 创意 的 不 同 历程 。 
取决 于 数据 如 何 收集 和 封装 ， 使 用 不 同 的 方法 比较 时 间 和 结果 。 这 可 能 会 像 t 检验 
(t-test) 那样 简单 ， 也 可 能 会 涉及 不 同 的 分 类 算法 。 
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2.8.4 第 4 阶段 : 模型 建立 
在 第 4 阶段, GINA 团队 采用 了 若干 种 分 析 方 法 。 其 中 包括 数据 科学 家 使 用 自然 语言 处 理 ( NLP ) 
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技术 来 处 理 创 新 线路 图 的 创新 想法 的 文本 描述 。 此 外 ， 数 据 科学 家 使 用 R 和 RStudio 进行 社交 网 络 
分 析 ， 然 后 使 用 R 的 ggplot2 包 创 建 社交 图 谱 和 创新 网 络 的 可 视 化 。 这 项 工作 的 示例 如 图 2.10 和 
到 2.11 所 示 。 



































































































































图 2.10 “创新 想法 提交 者 和 入 围 者 的 社交 图 谱 [27] 可 视 化 
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图 2.11 最 具 影 响 力 创新 者 的 社交 图 谱 可 视 化 









































图 2.10 中 的 社交 图 谱 描 述 了 GINA 中 创新 想法 提交 者 之 间 的 关系 。 每 一 种 颜色 代表 来 自 不 
同 国家 的 创新 者 。 带 红 圈 的 点 是 中 心 ( hub )， 代 表 一 个 具有 较 高 的 连通 性 和 较 高 的 “中 间 型 
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2.8 案例 研究 : 全 球 创新 网 络 和 分 析 (GINA) 





























(betweenness )” 分 数 的 创新 者 。 图 2.11 中 的 聚 类 包含 地 理 的 多 样 性 ， 这 在 证 明 地 理 边界 人 员 的 
假设 时 至 关 重 要 。 该 图 中 有 一 个 研究 科学 家 比 图 中 其 他 人 的 分 数 高 很 多 。 数 据 科 学 家 识别 出 了 
这 个 人 ， 并 在 分 析 沙 箱 中 对 其 运行 了 分 析 ， 生 成 了 关于 他 的 如 下 信息 ， 证 明 他 在 公司 中 很 有 影 
587]. 
@ 2011 年 ， 他 参加 了 ACM SIGMOD 会 议 ， 这 是 一 个 大 规模 数据 管理 和 数据 库 方面 的 顶 
e 他 拜访 了 EMC Documentum 内 容 管理 团队 位 于 法 国 的 业务 部 门 ( 现在 HG 部 门 的 一 部 分 )。 















































































































































































































































































































































































































































































































































e 在 一 个 虚拟 午餐 会 议 上 ， 他 向 3 名 俄罗斯 员工 、1 名 开罗 员工 、1 名 爱尔兰 员工 、1 名 
印度 员工 、3 名 美国 员工 和 1 名 以 色 列 员工 介绍 了 参加 SIGMOD 会 议 的 感想 。 

e 2012 年 ， 他 参加 了 在 加 州 召开 的 SDM 2012 会 议 。 

e 在 参加 SDM 会 议 后 ， 他 拜访 了 EMC, Pivotal 和 VMware 的 创新 者 和 研究 员 。 

e ”随后 ， 他 在 一 个 内 部 技术 会 议 上 ， 向 数 十 名 公司 创新 和 研究 人 员 介绍 了 他 的 二 位 研究 
人 员 。 

这 一 发 现 表 明 ， 至 少 部 分 初级 假设 是 正确 的 ， 即 数据 可 以 识别 跨越 不 同 地 域 和 业务 部 门 的 



























































创新 者 。 团 队 使 用 了 Tableau 软件 进行 数据 可 视 化 和 探索 ， 使 用 了 Pivotal GreenPlum 数据 库 作 
为 主 数据 仓库 和 分 析 引 党 
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2.8.5 第 5 阶段 : 沟通 结果 


第 5 阶段 中 ,团队 发 现 了 若干 种 方法 来 过 滤 分 析 结果 和 识别 最 有 影响 和 最 相关 的 发 现 。 
这 个 项 目 在 识别 边界 人 员 和 隐 奖 的 创新 者 方面 是 成 功 的 。 因 此 ， 首 席 技 术 官 办 公 室 发 起 了 纵 
向 研究 , 开始 收集 更 长 时 间 跨 度 上 的 创新 数据 。GINA 项 目 促进 公司 内 外 跨 区 域 的 创新 和 研究 
相关 的 知识 分 享 。GINA 也 使 得 EMC 创造 了 更 多 的 知识 产权 和 生成 了 更 多 的 研究 主题 ， 并 促 
进 
有 
完 






























































































































































































































































































































































4j 
进 了 与 大 学 的 科研 合作 关系 ， 以 便 在 数据 科学 和 大 数据 方面 进行 联合 学 术 研 究 。 此 外 ， 由 于 
有 杰出 工程 师 和 数据 科学 家 作为 志愿 者 参与 了 该 项 目 ， 因 此 该 项 目 在 预算 有 限 的 情况 下 顺和 
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该 项 目 中 的 一 个 重要 发 现 是 , 在 爱尔兰 的 科 克 市 有 相当 多 的 创新 者 。EMC 在 每 年 举办 一 次 
创新 竞赛 ， 让 员工 提出 可 以 为 公司 带 来 新 价值 的 创新 理念 。 回 顾 2011 年 的 相关 数据 ，15% 的 入 
BAM 15% 的 获奖 者 都 来 自爱 尔 兰 。 考 虑 到 爱尔兰 科 克 市 的 COE 相对 较 小 的 规模 ,这 些 数字 就 
异常 惊人 了 。 进一步 研究 后 发 现 , 科 克 COE 员工 接受 了 来 自 外 部 顾问 关于 创新 的 集中 培训 ， ix 
被 证 明 是 非常 有 效 的 。 因 此 科 克 的 COE 想 出 了 更 多 、 更 好 的 创新 点 子 ， 为 EMC 的 创新 做 出 了 
巨大 的 贡献 。 传 统 的 或 者 “八卦 式 ” 的 口 口 相传 的 方法 将 很 难 识别 这 个 创新 者 群体 。 团 队 运 用 
社交 网 络 分 析 发 现 了 在 EMC 中 谁 做 了 巨大 的 贡献 。 这 些 研 究 结 果 通 过 演示 和 和 会 议 在 内 部 分 享 ， 
通过 社交 媒体 和 博客 进行 了 推广 。 






















































































































































































































































































































































































































































































第 2 章 数据 分 析 生 命 周 期 


2.8.6 第 6 阶段 : 实施 


在 一 个 装载 了 创新 者 笔记 、 备 万 录 和 演示 报告 的 沙 箱 中 运行 分 析 产 生 了 对 EMC 创新 文化 的 
深刻 见解 。 来 自 该 项 目的 关键 发 现 包括 以 下 这 些 。 

o ”首席 技术 官办 公 室 和 GINA 在 将 来 需要 更 多 的 包括 营销 计划 在 内 的 数据 ， 以 解读 EMC 
全 球 的 创新 和 研究 活动 。 









































































































































































































































































































































































































































e 有些 数据 非常 敏感 ， 团 队 需 要 考虑 数据 的 安全 性 和 私密 性 ， 比 如 谁 可 以 运行 模型 并 看 
到 结果 。 

e 除了 运行 模型 ， 还 需要 改进 基本 的 商业 智能 ， 比 如 仪表 盘 、 报 告 和 全 球 研究 活动 的 
查询 。 

e 在 部 署 模型 后 ， 需 要 有 一 套 机 制 来 持续 不 断 地 评估 模型 。 评 估 模 型 的 好 处 也 是 这 一 阶 
段 的 主要 目标 之 一 ， 并 需要 定义 一 个 过 程 来 按 需 重新 训练 模型 。 





































































































余 了 上 述 的 行为 和 发 现 ， 团 队 还 演示 了 如 何在 项 目 中 通过 分 析 发 现 新 的 见解 ， 而 这 些 见 解 在 传 
统 上 是 很 难 进行 评估 和 量化 的 。 这 个 项 目 促 使 首席 技术 官办 公 室 对 大 学 研究 项 目 进 行 资助 ， 也 发 现 
了 隐藏 的 、 高 价值 的 创新 者 。 此 外 ， 首 席 技术 官办 公 室 还 开发 了 工具 来 帮助 创新 想法 提交 者 使 用 新 
的 融合 了 主题 建 模 技术 的 推荐 系统 来 寻找 类 似 的 想法 ， 改 进 自己 的 想法 和 完善 新 知识 产权 的 提案 。 
表 2.3 列 出 了 GINA 案例 中 的 分 析 计 划 。 尽 管 这 个 项 目 只 展示 了 3 个 发 现 ， 但 实际 上 有 许 
多 。 侈 如 ， 这 个 项 目 最 大 的 综合 性 结果 也 许 就 是 它 以 具体 的 方式 展示 了 分 析 可 以 从 关于 像 创 新 
这 样 难于 评估 的 主题 的 项 目 中 发 现 新 的 见解 。 











































































































































































































































































































































































































































































































表 2.3 EMC GINA 项 目的 分 析 计 划 
分 析 计 划 的 构成 GINA 案例 研究 


跟踪 全 球 知识 增长 ， 确 保有 效 的 知识 转移 ， 并 迅速 将 其 转化 为 企业 的 资产 。 这 三 
者 都 应 该 可 以 加 速 创新 


初始 假设 跨 区 域 知识 转移 的 增加 可 以 提升 想法 交付 的 速度 
数据 五 年 的 创新 想法 提交 和 历史 ; 来自 于 全 球 创新 和 研究 活动 的 六 个 月 的 文本 笔记 
模型 规划 分 析 技 术 | 社交 网 络 分析 、 社 交 图 谱 、 聚 类 和 回归 分 析 

1. 发 现 了 隐藏 的 、 高 价值 的 创新 者 ， 和 分 享 他 们 的 知识 的 方法 
结果 和 主要 结论 2. 促使 了 对 大 学 研究 项 目 进行 资助 
3. 创建 工具 来 帮助 创新 想法 提交 者 使 用 想法 推荐 系统 来 改进 想法 


























发 现 业 务 问题 
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每 个 公司 都 想 要 加 强 创新 ， 但 却 很 难 评估 创新 或 确定 增加 创新 的 方法 。 本 项 目 从 这 样 一 个 角度 
来 探索 这 个 问题 ， 即 通过 评价 非 正式 社交 网 络 来 识别 创新 子 网 络 内 的 边界 人 员 和 有 影响 力 的 人 。 本 
质 上 ， 这 个 项 目 应 用 了 高 级 的 分 析 方 法 ， 基 于 客观 事实 梳理 出 了 一 个 看 似 模糊 的 问题 的 答案 。 

这 个 项 目的 兄 一 个 结论 是 ， 需 要 为 商业 智能 报表 建立 一 个 单独 的 数据 存储 来 搜索 创新 和 下 
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究 举 措 。 除 了 支持 决策 ， 这 也 能 提供 一 种 知晓 全 球 范围 内 不 同 区 域 的 团队 成 员 之 间 的 讨论 和 6 
究 的 机 制 。 这 个 项 目 同时 强调 了 通过 数据 和 分 析 可 以 获得 的 价值 。 因 此 ， 应 该 启动 正式 的 营销 
计划 , 以 说 服 和 人们 在 全 球 社区 提交 或 者 告知 他 们 的 创新 /研究 活 主 是 关键 , 否则 GINA 
也 将 无 法 执行 分 析 并 识别 隐藏 在 公司 内 部 的 创新 者 。 
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2 .9 总 结 


本 章 描述 了 数据 分 析 生 命 周期 ， 
为 6 个 阶段 。 





















































种 用 于 管理 和 执行 分 析 项 目的 方法 。 这 种 方法 可 以 
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通过 这 些 步 又， 数据 科学 团队 可 以 识别 问题 并 对 深度 分 析 所 需要 的 数据 集 进 行 严 说 的 探索 。 
本 章 虽 然 花 了 很 多 篇 幅 来 讲解 分 析 方 法 ， 但 实际 项 目的 主要 时 间 会 花 在 第 1 和 第 2 阶段 ， 即 发 现 
和 数据 准备 。 此 外 ， 本 童 还 讨论 了 数据 科学 团队 中 需要 的 7 个 角色 。 组 织 机 构 必须 认识 到 数据 科 


学 强调 团队 协作 ， 而 要 想 成 功 地 运行 大 数据 项 目 和 其 他 涉及 数据 分 析 的 复杂 项 目 ， 则 需要 各 种 技 















































































































































































































































2.10 练习 
.团队 会 在 哪个 阶段 花费 最 多 的 时 间 ? 为 什么 ?团队 会 在 哪个 阶段 花费 最 少 的 时 间 ? 
2， 在 全 面 推广 新 的 4 M 法 之 前 做 一 个 试点 项 目的 好 处 是 什么 ? 
3， 以 下 阶段 可 能 会 使 用 什么 样 的 工具 ， 分 别针 对 哪些 类 型 的 应 用 场景 ? 
a， 阶 段 2: 数据 准备 
b. 阶段 4: 模型 建立 
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关键 概念 

e RENEE 

e (A R 进行 数据 探索 和 分 析 
@ ”用 于 评估 的 统计 方法 


第 3 章 使 用 R 进行 基本 数据 分 析 




























































































第 2 章 介 绍 了 数据 分 析 生 命 周期 的 6 个 阶段 。 

@ 阶段 1: 发 现 

e 阶段 2: 数据 准 负 

e 阶段 3: ESSAY 

e 阶段 4: 模型 构建 

e 阶段 5: 沟通 结 

e 阶段 6: 实施 

前 三 个 阶段 涉及 数据 探索 的 各 个 方面 。 一 般 来 说 , 成 功 的 数据 分 析 项 目 需要 深入 理解 数据 。 

















































































































同时 ， 还 需要 一 个 工具 箱 来 挖掘 和 展示 数据 ， 即 研究 数据 的 基本 统计 计量 ,以 及 创建 图 表 对 数 
据 的 关系 和 模式 进行 可 视 化 。 若 干 免费 或 商用 的 工具 可 以 用 来 对 数据 进行 探索 、 治 理 、 建 模 和 
展示 。 由 于 R 这 种 开源 编程 语言 相当 受 欢 迎 而 且 具 有 多 种 用 途 ， 我 们 将 使 用 它 来 讲解 本 书 中 尼 
许多 分 析 任务 和 模型 。 
本 音 将 介绍 R 语言 的 基本 功能 和 环境 。 第 1 市 将 概述 如 何 使 用 R 来 获取 、 解 析 和 过 渡 数 据 ， 
六 及 如 何 对 数据 集 进 行 基本 的 描述 性 统计 。 第 2 节 将 讲解 如 何 使 用 进行 可 视 化 的 探索 性 数据 
分 析 。 最 后 一 节 将 讲解 如 何 使 用 R 进行 统计 推理 ， 例 如 假设 检验 和 方差 分 析 。 
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3.1 R 简介 


R 是 一 款 用 于 统计 分 析 和 作 图 的 编程 语言 和 软件 框架 ,经 由 GNU 通用 公共 许可 证 (GNU 
General Public License ) [1] 授 权 使 用 ， 软 件 和 安装 说 明 可 以 通过 Comprehensive R Archive and 
Network[2] 获 得 。 本 节 将 概述 R 语言 的 基本 功能 ， 为 后 面 章节 中 介绍 的 许多 分 析 技 术 做 铺垫 。 
在 深入 介绍 R 的 具体 操作 和 功能 之 前 ,首先 要 理解 用 于 解决 分 析 问 题 的 基本 的 R 脚本 流程 。 
面 的 R 代码 演示 了 一 个 典型 的 分 析 场 景 , 包括 导入 数据 集 , 检查 数据 集 内 容 和 执行 建 模 任务 。 
然 读者 可 能 还 不 熟悉 R 语法 , 但 是 可 以 通过 阅读 # 字 符 后 面 囊 的 注释 来 理解 代码 。 在 下 面 的 场 
H, CSV 文件 包含 了 10000 个 零售 客户 的 年 销售 额 ,单位 为 美元 。read.csv0 函 数 用 于 导入 CSV 
牛 ， 并 将 整个 数据 集 用 赋值 运算 符 <- 存 放 到 R 变量 sales 中 。 


import a CSV file of the total annual sales for each customer 
sales«- read.csv("c:/data/yearly sales.csv") 
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lexamine the imported dataset 
head (sales) 
summary (sales) 


# plot num of orders vs. sales 
plot (sales$num of orders,sales$sales total, 
main-"Number of Orders vs. Sales") 





# perform a statistical analysis (fit a linear regression model) 
results <- lm(sales$sales total ~ sales$num of orders) 
summary (results) 





# perform some diagnostics on the fitted model 
# plot histogram of the residuals 


hist (results$ 


在 本 例 中 ,数据 文件 是 使 用 read.csvOER ZI ATI 

















residuals, breaks = 800) 
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导入 文件 ， 可 以 检查 文件 内 容 以 确保 数 
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JeRAEBAUUEX, URAC. ERAR, head REER C PRIVATE AHI 6 28 sales 记录 。 


计算 最 小 和 最 大 仁 























# examine the 
head (sales) 














imported dataset 
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cust id sales total num of orders gender 


100001 
100002 
100003 
100004 
100005 
100006 


NOP 0 NN n| 





summary OQ PAZ t ES— segs RES, Eb, 








800.64 3 
211.53 3 
74.58 2 
498.60 3 
723.11 4 
69.43 2 
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每 个 数据 列 的 均值 和 中 位 数 。 此 外 ， 该 函数 还 


























以 及 第 一 和 第 三 四 分 位 数 。 因 为 gender WBA MEF: Fa VRM ”, 























此 summaryO 函 数 还 计算 每 个 字符 的 出 现 次 数 。 


summary (sales 
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cust id sales total num of orders gender 
Min. :100001 Min. $30.02 Min. : 1.000 F:5035 
lst Qu. :102501 1st Qu. : 80.29 Last Ou 2.000 M:4965 
Median :105001 Median ; 151.955 Median 2.000 
Mean :105001 Mean : 249.46 Mean : 2.428 
3rd Qu. :107500 3rd Qu. : 295.50 3rd Qu. 3.000 
Max. :110000 Max. :7606.09 Max. :22.000 
] 图 表 来 显示 一 个 数据 集 的 内 容 可 以 提供 各 列 之 间 的 关系 信息 。 在 本 例 中 ，plot0) 函 数 生成 
一 个 可 以 对 比 订单 数量 (sales$num_of_orders ) 和 总 销售 额 ( sales$sales_total ) 的 散 点 图 。$ 用 于 
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用 数据 集 sales H 





3. 

















的 某 一 特定 列 。 


plot num of orders vs. sales 
























































plot (sales$num of orders,sales$sales total, 


main-"Number of Orders vs. 





Lix 





E 成 的 散 点 图 
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1 通 i 

















如 图 3.1 所 示 。 


Sales") 


订单 数量 与 总 销售 额 的 对 比 





Sales$sales_total 





sales$num of orders 


表 检 查 数据 








第 3 章 使 用 R 进行 基本 数据 分 析 
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图 3.1 中 ， 每 个 点 对 应 每 个 客户 的 订单 数量 和 总 销售 额 。 这 个 散 点 医 销售 额 与 训 
单 的 数量 成 比例 。 虽 然 观察 到 的 这 两 个 变量 之 间 的 关系 不 是 纯 线性 的 ， 但 是 分 析 人 人 员 决 定 通 过 
lm0 函 数 应 用 线性 回归 ， 作 为 建 模 过 程 的 第 一 步 。 


results«- lm(sales$sales total ~ sales$num of orders) 
results 



















































































































































































Call: 
lm(formula = sales$sales total ~ sales$num of orders) 


Coefficients: 
(Intercept) sales$num of orders 
-154.1 166.2 


对 于 拟 合 线性 方程 来 说 ， 由 此 产生 的 截 距 和 和 斜率 值 分 别 为 -154.1 和 166.2。 然 而 ， 可 以 使 
] summary O PA AKA results 中 存储 的 大 量 额 外 信息 。results 的 内 容 细 节 可 以 通过 应 用 
attributesO 国 数 进行 检查 。 回 归 分 析 在 本 书后 面 会 有 更 详细 的 介绍 ， 因 此 读者 不 用 过 分 关注 下 
面 输出 的 解释 。 


summary (results) 

































































































































































































































































Calls 
lm(formula = sales$sales total ^ sales$num of orders) 


Residuals: 
Min 1Q Median 3Q Max 
-666.5 -125.5 -26.7 86.6 4103.4 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -154.128 4.129 —37.33 «2e-16 *** 
sales$num of orders 166.221 1.462 113.66 «2e-16 *** 
Srgnif.-codess Qr ***r. 02001) rmx 9791 PEE 0-05: t * -oSl Cl 


Residual standard error: 210.8 on 9998 degrees of freedom 
Multiple R-squared: 0.5637, Adjusted R-squared: 0.5637 


F-statistic: 1.292e+04 on 1 and 9998 DF, p-value: < 2.2e-16 


summary0) 函 数 是 一 个 泛 型 函数 。 泛 型 函数 是 一 组 拥有 相同 的 函数 名 , 但 是 行为 会 因 接 收 胖 
的 参数 个 数 和 类 型 不 同 而 异 的 函数 。 前 面 使 用 的 plot0 是 另 一 个 泛 型 函数 , 它 绘制 的 图 形 取决 
传递 的 变量 。 泛 型 函数 的 使 用 在 本 章 和 本 书 随处 可 见 。 在 例子 的 最 后 部 分 ， 下 面 的 R 代码 使 用 
Tz PRAM hist0 来 生成 result 中 存储 的 残 差 的 柱状 图 C 见 图 3.2 )。 函数 调用 说 明了 传 入 的 参数 值 。 
在 本 例 中 ， 指 定 了 breaks 的 数量 ， 用 来 观察 大 量 的 残 差 。 

# perform some diagnostics on the fitted model 


# plot histogram of the residuals 
hist (results$residuals, breaks = 800) 






































= 

































































































































































pu 




































































































































































[pn 























results&residuals 直 方 图 





r T T T 1 
0 1000 2000 3000 4000 
results$residuals 





图 3.2 ”大 量 残 差 的 证 据 


这 个 简单 的 例子 演示 了 几 个 在 数据 分 析 生 命 周 期 第 3 阶段 和 第 4 阶段 可 能 进行 的 基本 的 忆 
型 规划 和 建设 任务 ， 本 章 中 介绍 的 R 的 功能 将 被 用 于 更 为 复杂 全 面 的 分 析 。 












































































































































3.1.1 RR 图 形 用 户 界 面 


R 有 命令 行 界面 ( CLI )， 类 似 于 Linux 中 的 BASH Shell 或 者 Python 等 交互 式 脚本 语言 。 
UNIX 和 Linux 用 户 可 以 在 终端 下 输入 命令 R， 以 启动 命令 行 界面 (CLI). 在 Windows F, R 
自 带 RGui.exe 执行 程序 ， 它 提供 了 一 个 基本 的 ] 户 界面 (GUI )。 然而 ,为 了 方便 编写 、 执 
行 和 调试 R 代码 ， 还 有 一 些 其 他 的 R 图 形 用 户 界面 (GUI) 可 供 选 择 。 比 较 流行 的 图 形 用 户 界 
面包 括 R Commander[3]、Rattle[4] 和 RStudio[5]。 本 节 将 简单 介绍 RStudio， 并 用 它 来 创建 本 书 
中 的 R 的 示例 。 图 3.3 所 示 为 在 RStudio 中 执行 上 面 的 R 代码 示例 的 截图 ， 其 中 包含 478 
面板 。 

e 脚本 : 编写 和 保存 R 代码 的 区 域 。 

e 工作 区 : 列 出 R 环境 中 的 数据 集 和 变量 。 

e 图 : 显示 R 代码 生成 的 图 形 ， 并 以 直观 方式 导出 图 形 。 

e 控制 台 : 记录 执行 过 的 R 代码 和 输出 的 历史 。 
此 外 ， 在 控制 台面 板 可 以 获取 R 的 帮助 信息 。 图 3.4 所 示 为 在 控制 台中 输入 ?Im 后 ， 在 右 侧 显示 的 
lm0 函 数 的 帮助 信息 。 另 外 ， 也 可 以 在 控制 台中 输入 helpdm) 来 获得 相同 的 帮助 信息 。 
edit0 和 fixO 等 函数 允许 用 户 更 新 变量 的 内 容 。 另 外 , 对 变量 的 更 新 也 可 以 通过 在 RStudio 
中 的 工作 区 面板 选择 相应 的 变量 来 实现 。 

R 人 允许 使 用 save.image0 函 数 把 工作 区 环境 ( 包括 变量 和 加 载 库 ) 保存 到 .Rdata 文件 。 使 用 
load.image() 函 数 可 以 加 载 现 有 的 .Rdata 文件 。 有 些 工 具 (比如 RStudio ) 会 在 用 户 退 出 当前 GUI 
之 前 提示 开发 人 员 是 否 要 保存 工作 区 。 

读者 可 以 安装 R 和 一 个 喜欢 的 GUI， 来 尝试 书 中 提供 的 示例 ， 并 且 使 用 帮助 功能 来 了 解 有 
关 讨论 主题 的 详细 内 容 。 
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第 3 章 使 用 R 进行 基本 数据 分 析 
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fimport a csv filu of tbe total annual sales for each custose 





summary (sales) edesce pt ive statistics 
splot num of orders vs. sale 





perform a statistical analysis (fit a linear regression mode) 
results <- Im(salesisales_total-sales Srana of orders) 
results 


summary results) 
perform some diagnostics on the fitted sodel 


splot histogram of the residuals 
histiresultsSresiduals, breaks = 800) 








wanna 





sales <- read. csv(^c:/data/yearly sales. csv") 
head(sales) 


plotí(salesSrum of orders,salesisales total, main maber of Orders vs. Sales”) 





: 
: 





Cont -/ 
> summary(resu its) 


cali: 
le(formula = salesfsales total ~ sales$num of orders) 





Coef f ictents: 
Estimate std. error t value pr(>|t|) 

(intercept) -154.128 4.129 -37.33 <2e-16 * 

sales$num of orders 166.221 1.462 111.66 *2e-16 * 





signif. codes: 0 '***' 0,001 ***' 0.01 *** 6.05 *.* 06.1 * * 1 
Residual standard error; 210.8 on 9998 degrees of freedom 
Multiple R-squared: 0.5637, Adjusted R-squared: 0.5607 
F-Statistic: 1.292e«04 on 1 and 9998 DF, p-value: < 2.2e-16 


dperfcem some diagnostics on the fitted model 
#plot histogram of the residuals 
hist(results$residuals, breaks = 800) 
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图 3.3 RStudio 界面 





fimport a csv file of the total anneal sales for each cus 
sales <- read. csv(^c: /data/year ly sales. csv" 








sexamine the imported dataset 
head(sales 

summary sales) &descriptive statistic 
eplot mum.of orders wa. sales 





erform à 
results « 
results 


avistical analysis (fit a linear regresst 





5ales1sales. total -salesimem of orders) 


summary§results) 
foerfore some diagnostics on the fitted mode! 
plot histogram of the residuals 
Nist(resultsiresiduals, breaks ~ 600) 
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D Purea = 





| 
plot (sales Srum_of_orders.salusisales_total, maine Wusber of Orders vs. Sales” | 


Fon I mm 3s ssm- fi) 





call: 
In(formula = salestsales_total ~ salessrun_ of orders) 





Residuals: 
win 10 Median A "ax 
-606.5 -123.5 -26.7 86.6 4103.4 
Coefficients: 
Estimate Std. Error t value pr (>1tl) 
(intercept) -154.128 4.129 -H.H9 20-36 
sales$num of orders 166.221 1.462 113.65  e-16 





Signif. codes: 0 '**** 0,001 





* 6.01 *** 6.05 *.* 01 * * 1 
Residual standard error: 210.8 on 9908 degrees of freedos 
Multiple W-squared: 0.637, Adjusted M-squared: O, $637 
-statistic: 1.282004 on 1 and 9998 DF, p-valoe: < 2.24-16 


> Mperfore some diagnostics on the fitted model 
> splot histogram of the residuals 

> hist(resultsSresiduals, Breaks = 800) 

> 7» 
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图 3.4 在 RStudio 中 使 用 帮助 功能 











3.1.2 ”数据 导入 和 导出 






































在 上 面 的 年 度 零 售 额 例子 中 ， 














过 read.csvO RBC ATH 


sales«- read.csv("c:/data/yearly sales.csv") 


R 语言 使 用 正 斜 杜 (/) 作为 












































部 分 Windows 用 户 来 说 在 一 
为 了 方便 导入 长 路 径 下 的 Ait. 
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|R， 代 码 如 下 所 示 : 

















本 文件 更 容易 移植 ， 但 是 对 
























































如 下 面 的 R 代码 所 示 : 


setwd("c:/data/") 

















Sales«- read.csv("yearly sales.csv") 


其 他 导入 函数 包括 read.table() All read.delim(), 
些 函 数 也 可 以 用 于 导入 yearly. sales .csv 文件 ， 


les.csv", 












































Sales table «- read.table("yearly sal 
sales delim «- read.delim("yearly sal 


主要 区 别 在 于 默认 设 
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为 他 们 5 

































































作为 列 分 隔 符 。 如 果 文 件 
和 read.delim20) 来 导入 这 样 

















号 的 默认 值 。 




















| setwdO pA Zio EIS 















































用 反 斜 杆 (\ ) 作为 分 隔 符 。 























REB 当前 作 目 录 ， 
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如 下 面 的 代码 所 去 SS 


header-TRUE, sep=",") 
es.csv", sep=",") 


置 。 例 如 ，read.delimg) 





















































表 3.1 导入 函数 的 默认 值 





据 用 逗号 分 卫 小 数 , R veto 
表 3.1 所 示 为 各 种 导入 函数 的 




















常见 的 文件 类 型 ， 如 TXT。 这 








函数 默认 将 制 表 符 C) 


























两 种 额外 的 函数 read.csv2() 
数据 头 、 列 分 隔 符 和 小 数 点 符 




















函数 数据 头 分 隔 符 小 数 点 
read.table() FALSE 19 "4 Dd 
read.csv() TRUE 4» «o» 
read.csv2() TRUE «.» «» 
read.delim() TRUE NT ud 
read.delim2() TRUE «NC? «o» 


对 应 的 R AŽ, EGO write.tableO 、write.csvO 和 write.csv20, ， 可 以 将 











外 部 文件 中 。 例如 ,下面 

















一 个 外 部 文件 中 。 








的 R 代码 将 一 个 额外 的 列 添加 到 sales 数据 集 ， 


# add a column for the average sales per order 
sales$per order «- sales$sales total/sales$num of orders 











R 数据 集 导 出 到 一 个 


























将 修改 后 的 数据 导出 




















# export data as tab delimited without the row names 
write.table(sales,"sales modified.txt", sep="\t", row.names=FALSE 





第 3 章 使 用 R 进行 基本 数据 分 析 















































当 需 要 从 数据 库 管 理 系统 (DBMS ) 读 取 数 据 时 ， 可 以 使 用 诸如 DBI[6] 和 RODBC[7]HS R 
包 。 这 些 程序 包 用 于 及 语言 与 各 种 DBMS 进行 通信 ,包括 MySQL Oracle .SQL Server ,PostgreSQL 
和 Pivotal Greenplum 等 .下 面 的 R 代码 演示 了 如 何 使 用 installLpackage0 国 数 来 安装 RODBC £u. 
library) ACK RODBC 包 载 入 到 工作 区 。 最 后 ， 一 个 连接 器 (conn) 被 初始 化 ,通过 ODBC 以 
] 户 名 user 连接 到 Pivotal Greenplum 数据 库 traning2 中 。training2 数据 库 必须 在 /etc/ODBC.ini 


配置 文件 中 定义 ， 或 者 使 用 Windows 控制 面板 中 的 管理 工具 来 定义 。 


























































































































































































































































































































install.packages ("RODBC") 
library (RODBC) 
conn <- odbcConnect("training2", uid="user", pwd-"password") 


使 用 RODBC 包 中 的 sqlQuery0 函 数 ， 连 接 器 可 以 通过 ODBC 提交 一 个 SQL 查询 命令 到 数 
据 库 。 下 面 的 R 代码 检索 housing 表 中 家 庭 收入 (hinc ) 大 于 1000000 美元 的 记录 的 特定 列 。 

























































































housing data «- sqlQuery(conn, "select serialno, state, persons, rooms 
from housing 
where hinc » 1000000") 
head (housing data) 
Serialno state persons rooms 
3417867 6 7 
3417867 
4552088 
4552088 
8699293 
8699293 


] 户 既 可 以 通过 RStudio 保存 图 形 ， 也 可 以 使 用 R 代码 保存 图 形 到 指定 的 图 形 设备 。 下 面 
HI R 代码 使 用 jpeg0 下 创建 一 个 新 JPEG 文件 , 然后 将 一 个 直方 图 写 入 文件 , 最 后 关闭 这 
个 文件 。 在 自动 生成 标准 报告 时 ， 这 些 技术 相当 有 用 。 其 他 R 函数 ， 比 如 pngO. bmpO. pdfO 
和 postscript()， 可 以 用 于 将 图 形 保存 为 相应 的 格式 。 
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jpeg (file="c:/data/sales hist. jpeg") # create a new jpeg file 
hist (sales$num of orders) # export histogram to jpeg 
dev.off() 4 shut off the graphic device 


























关于 数据 导入 和 导出 的 更 多 信息 ， 比 如 从 统计 软件 包 (Minitab、SAS 和 SPSS 等 ) 导入 数 
据 集 的 方法 ， 可 以 访问 网 址 http://cran.rproject.org/doc/manuals/r-release/R-data.html。 


3.1.3 ”属性 和 数据 类 型 


在 前 面 的 示例 中 ， 每 位 客户 都 在 sales 变量 中 有 一 条 记录 。 每 位 客户 的 记录 包含 年 度 销售 
总 额 、 订 单数 量 和 性 别 等 属性 。 通 常 来 说 ， 属 性 是 对 一 个 物品 或 个 体 定性 或 定量 的 度量 。 这 
此 属性 可 以 分 为 四 类 : 定 类 、 定 序 、 定 距 和 定 比 (NOIR ) [8]。 表 3.2 区 分 了 这 四 种 属性 类 型 ， 
> 们 支持 的 操作 。 定 类 和 定 序 属性 被 认为 是 分 类 属性 ， 而 定 距 和 定 比 属性 被 认为 是 数字 
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表 3.2 NOIR 属性 类 型 


























































































































Good, Very Good, Premium, Ideal] 被 认为 
Excellent}. FARM, WFR Age RUFF NICER 








分 类 属性 《定性 ) 数字 属性 (定量 ) 
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iid 证 序 属性 。 只 有 理 
， 并 且 正 确 地 解读 。 例 如 ， 美 国 
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确 处 理 分 类 变量 的 方法 ‘ 
.数值 (numeric). 44 (character) 和 人 逻辑 数 据 类 型 (logic data type) 

















以 其 他 编程 语言 ，R 支持 使 
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typeof (flag) 

















的 例子 。 


# create a numeric variable 
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数值、 字符 和 人 逻辑 ( 布尔) 





Jo PIS R 代码 给 




















































































































Sport «- "football" # create a character variable 
flag«- TRUE # create a logical variable 
中 class0 函 数 和 typeofO 等 函数 可 以 检查 
K, typeof) ABCA TT AEA A 的 存储 方式 。 E 里 
是 双 精 度 型 的 。 为 了 提高 代码 的 可 读 性 ， 本 节 使 
lass (i) # returns "numeric" 
ypeof (i) # returns "double" 
lass (sport) # returns "character" 
ypeof (sport) # returns "character" 
lass(flag) returns "logical" 
returns "logical" 


s 
s 
还 有 其 他 的 一 些 R 函数 可 以 测试 变量 以 及 将 变 
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由 转换 为 一 种 特定 > 
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讲解 了 如 何 使 用 is.integer0 函 数 来 测试 i 是 否 为 整数 ， 以 及 如 何 使 用 as.integer0) 函 数 将 i 强制 转 
换 为 一 个 新 的 整 型 变量 j。 类 似 的 函数 也 可 以 用 于 双 精 度 型 、 字 符 型 和 逻辑 类 型 。 





































































































is.integer (i) # returns FALSE 

j «- as.integer (i) # coerces contents of i into an integer 

is.integer(j) 4 returns TRUE 

使 用 length0 函 数 可 以 发 现 创建 的 每 个 变量 的 长 度 都 是 1。 人 们 可 能 觉得 sport 变量 的 返回 长 
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度 应 该 是 8， 因 为 字符 串 “football” 中 有 8 个 字符 ， 但 是 这 三 个 变量 实际 上 是 同一 种 元 素 : 向 


量 (vector )。 




















fi 





length (i) # returns 1 
length (flag) # returns 1 
length (sport) # returns 1 (not 8 for "football") 


2. BÆ (vector) 
HEE R 中 数据 的 一 种 基本 组 成 单位 。 正 如 前 面 所 见 ，R 中 的 简单 变量 实际 上 是 向 量 。 






































































































































































































































































































































































































































个 向 量 只 能 由 相同 种 类 的 值 组 成 。 使 用 is.vector0 函 数 可 以 进行 向 量 测试 。 

is.vector (i) # returns TRUE 

is.vector (flag) # returns TRUE 

is.vector (sport) # returns TRUE 

R 提供 了 多 eile 下 面 的 R 代码 演示 了 如 何 使 用 组 合 函 数 c0 来 创建 向 量 ， 
以 及 如 何 使 用 冒号 运算 符 ( ) 创建 一 个 从 1 到 5 的 整数 序列 向 量 。 此 外 ， 下 述 代 码 还 演示 了 如 
何 修改 或 访问 已 经 存在 的 向 量 。 与 z 向 量 相关 的 代码 讲解 了 如 何 创建 逻辑 比较 来 提取 给 定向 量 
的 特定 元 素 。 

u <- c("red", "yellow", "blue") create a vector "red""yellow""blue" 


u returns "red""yellow""blue" 

u[1] returns "red" (1st element in u) 
v <- 1:5 create a vector 12 34 5 

v returns 12 34 5 

sum(v) returns 15 


w <- v * 2 create a vector 2 4 6 8 10 

returns 2 4 6 8 10 

returns 6 (the 3rd element of w) 
sums two vectors element by element 


returns 3 6 9 12 15 


w 
w[3] 


Zo SS Ww 





Zz 





TH- SE SE cH- die dd db E di di HOHE cR d 





z» 8 returns FALSE FALSE TRUE TRUE TRUE 
z[z » 8] returns 9 12 15 
z[z >8 | z < 5] returns 3 9 12 15 ("|" denotes "or") 










































































有 时 候 需 要 初始 化 一 个 特定 长 度 的 向 量 ， 然 后 为 向 量 填 充 内 容 。 默 认 情 况 下 ，vector0) 函 数 
会 创建 一 个 逻辑 向 量 , 但 可 以 使 用 mode 参数 来 为 向 量 指定 不 同 的 类 型 。 向 量 e 是 一 个 长 度 为 0 
的 整 型 向 量 ， 在 这 样 的 情况 下 比较 常用 : 最 初 不 知道 向 量 中 元 素 的 数量 ， 可 能 会 有 新 的 元 素 不 
断 添 加 到 向 量 的 末尾 。 
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3.1 R 






















































































































































































































































































































































































































































































































































































a <- vector (length=3) # create a logical vector of length 3 
a # returns FALSE FALSE FALSE 
b «- vector(mode-"numeric", 3) # create a numeric vector of length 3 
typeof (b) # returns "double" 
BLA] <=. 3x1 # assign 3.1 to the 2nd element 
b # returns 0.0 3.1 0.0 
c <- vector (mode-"integer", 0) # create an integer vector of length 0 
p # returns integer(0) 
length (c) # returns 0 
虽然 向 量 可 能 类 似 于 一 维 数组 ， 但 是 向 量 从 技术 上 来 说 是 没有 维度 的 概念 的 ， 如 下 面 的 R 
代码 所 示 。 我 们 将 在 后 文中 讨论 数组 和 算 阵 的 概念 。 
length (b) # returns 3 
dim (b) # returns NULL (an undefined value) 
3. 数组 (array) 和 和 矩阵 (matr i x) 
使 用 array0) 函 数 可 以 将 向 量 重 构成 为 数组 。 例 如 ， 下 面 的 R 代码 构建 了 一 个 三 维 数组 ， 用 
于 保存 两 年 内 三 个 区 域 的 季度 销售 数据 ， 然 后 将 第 二 个 区 域 的 第 一 年 中 第 一 个 季度 的 销售 额 设 
ELW 158000 美元 。 
# the dimensions are 3 regions, 4 quarters, and 2 years 
quarterly sales <- array(0, dim-c(3,4,2)) 
quarterly sales[2,1,1] «- 158000 
quarterly sales 
r r 1 
[,1] [,2] [,3] [,4] 
1, 0 0 0 0 
2 158000 0 0 0 
37 0 0 0 0 
r , 2 
[,1] [,21 [,3] [,4] 
1, 0 0 0 0 
2; 0 0 0 0 
3) 0 0 0 0 
二 维 数组 被 称 为 矩阵 〈matrix )。 下 面 的 代码 初始 化 了 和 矩阵， 用 来 保存 三 个 区 域 的 季度 销售 
数据 。 人 参数 nrow 和 ncol 分 别 定义 了 sales matrix 的 行 和 列 的 数量 。 
sales matrix «- matrix(0, nrow = 3, ncol = 4) 
sales matrix 
[,1] [,2] [,31 [,4] 
[1,] 0 0 0 0 
[2,] 0 0 0 0 
[3,] 0 0 0 0 
R 语言 提供 了 标准 的 矩阵 操作 ， 比 如 ， 加 法 、 减 法 、 乘 法 ,还 在 matrixcale 软件 包 中 提供 了 
转 置 函 数 tc) ATG! AERA AL matrix.inverse(). NEI 的 R 代码 构建 了 一 个 3 x 3 的 矩阵 M, 然后 乘 以 
它 的 逆 矩 阵 得 到 单位 矩阵 。 
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library (matrixcalc) 
M «- matrix(c(1,3,3,5,0,4,3,3,3),nrow = 3,ncol = 3)4 build a 3x3 matrix 
M $*$ matrix.inverse(M) 4 multiply M by inverse (M) 

[,1] [,21 [,3] 


[1,] 1 0 0 
[2,] 0 1 0 
[3,] 0 0 1 


4. REI (data frame) 
KATEEK, Zo ER CHER RAP E 238 FY RJ Ae i BJ £533 o 
上 ， 如 下 面 的 is.data.frame() 函 数 所 示 ， 在 本 章 开 始 使 用 read.csv0 函 数 创建 的 就 是 一 个 数据 " 


#import a CSV file of the total annual sales for each customer 
sales «- read.csv("c:/data/yearly sales.csv") 
is.data.frame (sales) # returns TRUE 


正如 前 面 所 示 ， 使 用 $ 符 号 可 以 访问 数据 帧 中 存储 的 变量 。 下 面 的 R 代码 证 明了 在 sales 这 
个 例子 中 , 除了 gender 之 外 ,每 个 变量 都 是 一 个 向 量 。gender 默认 由 read.csv0 作 为 因子 ( factor ) 
来 导入 。 ME 代表 通常 只 有 有 限 几 个 和 级 的 分 类 变量 E, 比如 这 里 的 gender 的 值 级 分 为 “F” 
和 “M”。 本 节 稍 后 会 详细 讨论 因子 。 


length(sales$num of orders) # returns 10000 (number of customers) 
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returns TRUE 
returns TRUE 
returns TRUE 
returns FALSE 


is.vector(sales$cust id) 
is.vector(sales$sales total) 
is.vector(sales$num of orders) 
is.vector (sales$gender) 


is. factor (sales$gender) # returns TRUE 
数据 帧 能 够 灵活 地 处 理 多 种 数据 类 型 ， 因 此 成 为 R 中 许多 建 模 函数 的 首选 输入 格式 。 
下 面 的 代码 通过 str0 函 数 来 显示 sales 数据 帧 的 结构 。 这 个 函数 可 以 识别 整 型 和 数值 型 
(double ) 数据 类 型 、 因 子 变 量 和 级 别 ， 以 及 每 个 变量 的 前 几 个 值 。 


str(sales) 4 display structure of the data frame object 
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'data.frame': 10000 obs. of 4 variables: 

$ cust id : int 100001 100002 100003 100004 100005 100006 : 
$ sales total : num 800.6 217.5 74.6 498.6 723. S 
$ num of orders: int 3 323422222 -:-« 

$ gender : Factor w/ 2 levels "F","M": 1122 p] x22. 22 


mei RYE, BREA GAARA SAFI e. KEM TRE Aut TS ERE 
( subsetting operator ) 来 检索 。R 的 子 集 操作 符 功能 非常 强大 ， 可 以 用 简洁 的 方式 表达 复杂 的 操 
作 来 检索 数据 集 的 子 集 。 


# extract the fourth column of the sales data frame 
sales[,4] 

# extract the gender column of the sales data frame 
sales$gender 

# retrieve the first two rows of the data frame 
sales[1:2,] 





































































































































































































































































































































































































































































































































































































# retrieve the first, third, and fourth columns 
sales[,c(1,3,4)] 
# retrieve both the cust id and the sales total columns 
sales[,c("cust id", "sales total")] 
# retrieve all the records whose gender is female 
sales[sales$gender=="F", ] 
下 面 的 R 代码 显示 sales 变量 的 类 ( class ) 是 数据 帧 , 但 是 sales 变量 的 类 型 (type ) 是 列表 。 
列表 是 一 个 对 象 集合 ， 它 的 对 象 元 素 可 以 是 各 种 类 型 ， 甚 至 可 以 是 列表 。 
class (sales) 
"data.frame" 
typeof (sales) 
"list" 
5. 列表 (1ist) 
列表 可 以 包含 各 种 类 型 的 对 象 ， 甚 至 是 其 他 列表 。 借 助 于 前 面 示例 中 创建 的 向 量 v AFB 
M, FER R 代码 创建 了 一 个 拥有 不 同 对 象 类 型 的 列表 assortment. 
# build an assorted list of a string, a numeric, a list, a vector, 
# and a matrix 
housing <- list ("own", "rent") 
assortment «- list("football", 7.5, housing, v, M) 
assortment 
1 
] "football" 
2 
1.7.5 
3 
3]][[1]] 
] "own" 
311[I211 
] "rent" 
4 
] 2345 
5 
[,1] [,21 [,3] 
r d: 5 3 
2 3 0 3 
3j 3 4 3 
在 显示 assortment 列表 的 内 容 时 ， 必 须 使 用 双 括 号 [[]]。 下 面 的 R 代码 中 ， 使 用 一 组 单 括 号 
只 能 访问 列表 中 的 条 目 ， 而 不 会 显示 具体 内 容 
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# examine the fifth object, M, in the list 

class (assortment[5]) # returns "list" 

length (assortment [5]) # returns 1 

class (assortment [[5]]) # returns "matrix" 

length (assortment [[5]]) # returns 9 (for the 3x3 matrix) 
在 讨论 数据 帧 时 提 到 ，strO 函 数 可 以 提供 列表 结构 的 详细 信息 。 






































str(assortment) 
List of 5 
$ : chr "football" 
$ : num 7.5 
$ :List of 2 
.$ : chr "own" 
.$ : chr "rent" 
$ : int [1:5] 12 3 4 5 
S 3 num [1:3, 1:3] 1 3.3 5 0 4 3 3 3 


6. 因子 (factor) 

LEWC BRIT sales 中 的 gender 变量 时 ,曾经 简单 地 介绍 过 因子 ,在 这 种 情况 下 ,gender 
可 以 呈现 两 种 值 级 中 的 一 种 : F 或 M。 因 子 可 以 是 有 序 的 也 可 以 是 无 序 的 。 在 gender 的 例 
子 中 ， 值 级 是 无 序 的 。 


class (sales$gender) # returns "factor" 

























































































































































































is.ordered(sales$gender) # returns FALSE 

在 ggplot2 软件 包 中 ，diamonds 数据 帧 包括 三 个 有 序 因 子 。 在 cut 因子 中 ， 有 5 种 根据 切 工 
水 平 进行 有 序 排列 的 级 别 : Fair, Good, Very Good, Premium 和 Ideal。 因 此 ，sales$gender 包 
含 定 类 数据 ， 而 diamonds$cut 包含 定 序数 据 。 



















































































head (sales$gender) # display first six values and the levels 
FFMMFF 
Levels: F M 


library (ggplot2) 

data (diamonds) # load the data frame into the R workspace 
str (diamonds) 

'data.frame': 53940 obs. of 10 variables: 

$ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 ':-* 

$ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 54242 3°" 

$ color : Ord.factor w/ 7 levels "D"«"E"«"F"«"G"c..: 222 677°" 
$ clarity: Ord.factor w/ 8 levels "I1"<"ST2"<"ST1"<..: 23 54 2-*- 
$ depth : num 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 :- 
$ table : num 55 61 65 58 58 57 57 55 61 61°" 
$ price : int 326 326 327 334 335 336 336 337 337 338 °° 
$ x : num 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 … 





$ y : num 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 … 
$ 2 


num 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 :- 


head(diamonds$cut) # display first six values and the levels 
deal Premium Good Premium Good Very Good 
Levels: Fair « Good « Very Good « Premium « Ideal 


下 面 的 代码 根据 销售 的 金额 ， 将 sales$sales totals 分 成 small, medium 和 big 三 个 组 。 这 些 
组 是 新 定 序 因子 spender 的 基础 ，spender 的 级 别 为 fsmall 、madium big}. 
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# build an empty character vector of the same length as sales 





Sales group <- vector (mode-"character", 
length-length(sales$sales total)) 


# group the customers according to the sales amount 

sales group[sales$sales total«100] «- "small" 

sales group[sales$sales total»-100 & sales$sales total«500] «- "medium" 
sales group[sales$sales total»-500] <- "big" 


# create and add the ordered factor to the sales data frame 

spender «- factor(sales group,levels-c("small", "medium", "big"), 
ordered = TRUE) 

sales«- cbind(sales,spender) 


str(sales$spender) 
Ord.factor w/ 3 levels "small"«"medium"«..: 32123 1112 1:- 


head (sales$spender) 
big medium small medium big small 
Levels: small « medium « big 


cbindOPAZR PV GJEAER, rbindOPAZRVA4T As AER. FEM R 统计 建 模 函数 中 使 用 到 了 
子 ， 比 如 方差 分 析 函 数 aov0 和 情形 分 析 表 (contingency table). 

7. 情形 分 析 表 (contingency table) 
在 R 语言 中 ， 表 格 是 指 一 类 对 象 ， 用 来 存储 在 给 定数 据 集 上 观测 到 的 不 同 因子 的 计数 。 这 
样 的 表格 通常 被 称 为 情形 分 析 表 ， 是 对 用 来 构建 表格 的 因 了 cu M EN P TB 
HI R 代码 基于 sales$gender 和 sales$spender 因子 构建 了 一 个 情形 分 析 表 。 
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# build a contingency table based on the gender and spender factors 
sales table <- table(sales$gender, sales$spender) 
sales table 
small medium big 
F 1726 2746 563 
M 1656 2723 586 








class(sales table) # returns "table" 
typeof (sales table) # returns "integer" 
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dim(sales table) # returns 2 3 


# performs a chi-squared test 

summary (sales table) 

Number of cases in table: 10000 

Number of factors: 2 

Test for independence of all factors: 
Chisq = 1.516, df = 2, p-value = 0.4686 


基于 表 中 观察 到 的 计数 ，summary0 函 数 对 两 个 因子 的 独立 性 进行 卡 方 检验 。 因 为 报告 的 
p-value 大 于 0.05, 因此 这 两 个 因子 的 假设 独立 性 未 被 否定 。 在 后 面 章 节 将 对 假设 检验 和 p-value 
进行 更 详细 的 讨论 。 下 面 讲 解 在 R 中 应 用 描述 性 统计 。 
































































































































































































































3.1.4 ”描述 性 统计 (descriptive statistics ) 


前 面 提 到 summary0 函 数 提 供 了 几 种 描述 性 统计 ， 比 如 与 变量 ( 如 sales 数据 帧 ) 相关 的 均 
值 和 中 值 。 以 前 面 涉 及 因子 的 示例 为 基础 ， 下 面 的 输出 包含 spender 变量 三 个 值 级 的 计数 。 


summary (sales) 



































































































































































































































cust id sales total num of orders gender Spender 
Min. :100001 Min. : 30.02 Min. 1.000 F:5035 small :3382 
lst Qu. :102501 1st Qu. : 80.29 1st Qu. 2.000 M:4965 medium:5469 
Median :105001 Median : 151.65 Median : 2.000 big :1149 
Mean :105001 Mean : 249.46 Mean 2.428 
3rd Qu. :107500 3rd Qu. + 295.50 3rd Qu. 3.000 
Max. :110000 Max. :7606.09 Max. 222.000 
下 面 的 代码 提供 了 一 些 包含 描述 性 统计 的 常见 R 函数 。 括 号 中 的 注释 解释 了 函数 的 具体 
功能 。 


# to simplify the function calls, assign 
X <- sales$sales total 
y <- sales$num of orders 























































































































cor (x, y) # returns 0.7508015 (correlation) 

cov (x, y) # returns 345.2111 (covariance) 

IQR (x) # returns 215.21 (interquartile range) 

mean (x) # returns 249.4557 (mean) 

median (x) # returns 151.65 (median) 

range (x) # returns 30.02 7606.09 (min max) 

sd (x) # returns 319.0508 (std. dev.) 

var (x) # returns 101793.4 (variance) 
NABI, IQROPRAIUTI TOR ZR — Pos) eA SB — VUA SCA IRI) 2. HI e ZR TE 
2 们 的 名 字 就 可 以 猜测 出 来 ， 当 然 读者 也 可 以 查看 帮助 文件 了 解 函 数 可 以 接受 的 输入 住 
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选项 。 





3.2 探索 性 数据 分 析 





















































当 同 一 个 函数 要 应 用 到 数据 帧 中 的 多 个 变量 时 ， 会 用 到 apply0 函 数 。 例 如 ， 下 面 的 R 代码 
计算 sales 数据 由 中 前 3 个 变量 的 标准 偏差 。 在 代码 中 ， 通 过 设置 MARGIN=2 指定 将 sd0 函 数 
应 用 到 列 上 。 其 他 函数 ， 比 如 lapply0 函 数 和 sapply0 国 数 ， 可 以 将 一 个 函数 应 用 到 一 个 列表 或 





















































































































































E 











N 


Am. Been PAS R 语言 帮助 文件 来 学 习 这 些 函 数 的 用 法 。 




























































































apply(sales[,c(1:3)], MARGIN-2, FUN-sd) 
cust id sales total num of orders 
2886.895680 319.050782 1.441119 


[他 的 描述 性 统计 可 以 和 用 户 定义 的 函数 一 起 应 用 。 下 面 的 R 代码 定义 了 一 个 my. rangeO 
国 数 ， 用 于 计算 range0 函 数 返回 的 最 大 值 和 最 小 值 之 间 的 差 值 。 一 般 来 说 ， 用 户 定义 的 函数 对 
于 需要 频繁 使 用 的 任务 或 操作 都 非常 有 帮助 。 在 控制 台 输 入 help(“function”) 命 令 ， 就 可 以 获 











































































































































































































































































































取 用 户 定义 的 函数 的 更 多 信息 。 


# build a function to provide the difference between 





# the maximum and the minimum values 

my range <- function(v) {range(v) [2] - range(v) [1] } 
my range (x) 

7576.07 


3.2 ”探索 性 数据 分 析 


到 目前 为 目 ， 本 章 已 经 讲解 了 在 R 中 导入 和 导出 数据 的 方法 、 基 本 的 数据 类 型 和 操作 ， 
以 及 生成 描述 性 统计 。summary0 这 类 函数 可 以 方便 分 析 人 员 查 看 数据 规模 和 数据 范围 ， 但 
从 描述 性 统计 中 很 难看 出 线性 关系 和 分 布 这 类 的 信息 。 例 如 ， 下 面 的 代码 使 用 X 和 二 多 
来 显示 数据 帧 data 的 摘要 视图 。 输 出 显示 了 X 和 YY 的 范围 ， 但 无 法 显示 这 二 个 变量 之 间 的 
关系 。 


summary (data) 
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x y 
Min. :-1.90483 Min. :-2.16545 
lst Qu. .66321 1st Qu. :-0.71451 
Median .09367 Median :-0.03797 


3rd Qu. .65414 3rd Qu. : 0.55738 


:一 0 
0 
Mean : 0.02522 Mean :0.:02153 
0 
Max. 2 


.18471 Max. :-1.70199 
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视 化 的 探索 性 数据 分 析 是 一 种 在 数据 中 检测 模式 和 异常 的 有 效 方法 。 可 视 化 提供 了 

个 简洁 和 全 面 的 数据 视角 ， 这 个 视角 很 难 从 单纯 的 数据 和 汇总 中 发 现 。 数 据 帧 data 的 x 和 y 
变量 可 以 呈现 在 散 点 图 ( scatterplot ) 上 ( 见 图 3.5 )， 这 样 可 以 更 容易 地 描述 二 个 变量 之 间 的 
关系 。 在 模型 规划 和 建立 阶段 之 前 ， 可 视 化 可 以 评估 数据 的 清洁 度 ， 发 现 数据 间 洪 在 的 重要 
关系 ， 这 是 初始 数据 探索 的 重要 方面 。 
















































































































































































































































































第 3 章 使 用 R 进行 基本 数据 分 析 


X 和 Y 的 散 点 图 


N 


-2 -l 0 1 
X 




















图 3.5 如果 X 和 YY 共享 一 个 关系 ， 散 点 图 可 以 很 容易 地 显示 出 来 
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生成 data 数据 帧 以 及 图 3.5 的 代码 如 下 所 示 。 


x «- rnorm(50) 
y <- x + rnorm(50, mean-0, sd=0.5) 





data«- as.data.frame(cbind(x, y)) 
summary (data) 


library (ggplot2) 
ggplot(data, aes(x-x, y-y)) 十 
geom point(size-2) 十 
ggtitle("Scatterplot of X and Y") 十 
theme (axis.text-element text (size-12), 
axis.title = element text (size=14), 
plot.title = element text(size-20, face="bold") ) 


宁 索 性 数据 分 析 [9] 是 一 种 数据 分 析 方 法 ， 主 要 是 通过 可 视 化 来 发 现 数 据 集 的 重要 特征 。 本 
贡 将 讲解 如 何在 R 中 使 用 一 些 基本 的 可 视 化 技术 和 绘图 功能 来 进行 探索 性 数据 分 析 。 















































































































































3.2.1 在 分 析 之 前 先 可 视 化 


下 面 将 通过 安 斯 库 姆 四 重奏 ( Anscombe's quartet ) 来 说 明 可 视 化 数据 的 重要 性 。 如 图 3.6 
所 示 ， 安 斯 库 姆 四 重奏 是 由 四 个 数据 集 组 成 ， 由 统计 学 家 Francis Anscombe[10] 于 1973 年 构造 ， 


j 于 演示 图 在 统计 分 析 中 的 重要 性 。 
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3.2 探索 性 数据 分 析 
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图 3.6 ” 安 斯 库 姆 四 重奏 
安 斯 库 姆 四 重奏 中 的 4 个 数据 集 具 有 几乎 相同 的 统计 属性 ， 如 表 3.3 所 示 。 
R33 安 斯 库 姆 四 重奏 的 统计 属性 

统计 属性 值 

X 的 均值 9 

Y 的 方差 11 

Y 的 均值 7.50《〈 到 小 数 点 后 二 位 ) 

Y 的 方差 4.12 或 4.13《〈 到 小 数 点 后 二 位 ) 

X fü Y 的 相关 性 0.816 

线性 回归 直线 Y=3.00+0.50x〔 到 小 数 点 后 二 位 ) 
















































































根据 每 个 数据 集中 几乎 相同 的 统计 属性 ， 人 们 很 容易 认为 这 4 个 数据 集 非 常 相似。 然而 ， 
到 3.7 中 的 散 点 图 却 得 出 了 截然 不 同 的 答案 。 每 个 数据 集 都 被 绘制 成 一 个 散 点 图 ， 拟 合 线 是 应 
线性 回归 模型 的 结果 。 数 据 集 1 很 好 地 符合 预期 回归 线 ， 数 据 集 2 完全 是 非 线 性 ， 数 据 集 3 
中 除了 x=13 这 个 点 情况 例外 ,其 余 点 都 展示 了 线性 趋势 。 数 据 集 4 也 符合 回归 线 , 但 是 只 有 两 
个 X 值 ， 因 此 无 法 确定 线性 假设 是 五 1 
生成 图 3.7 的 R 代码 如 下 所 示 。 它 需要 用 到 R 语言 软件 包 ggplot2[11]， 可 以 通过 运行 命令 
install.packages(“ggplot2”) 进 行 安装 。 用 于 生成 散 点 图 的 anscombe 数据 集 包 含 在 R 标准 发 行 
版 中 。data0 可 以 列 出 包含 在 R 标准 发 行 版 中 的 数据 集 。 输 入 data ( DatasetName ) 命令 可 以 在 
当前 工作 区 激活 DatasetName 数据 集 。 
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3.7” 安 斯 库 姆 四 重奏 可 视 化 散 点 图 






































下 面 的 代码 中 ， 首 先 使 用 gl0 函 数 创建 变量 levels， 该 函数 生成 4 级 因子 (1, 2, 3804. 

每 个 因子 重复 11 次 。 然 后 使 用 with ( data.expression ) 函数 创建 变量 mydata， 该 函数 在 在 data 
上 计算 expresssion。 在 此 例 中 ,data 是 安 斯 库 姆 数据 集 ， 其 包括 8 个 属性 : xl. x2. x3. x4, yl. 
y2, y3 和 y4。 代码 中 的 expression 从 安 斯 库 姆 数据 集中 创建 一 个 数据 帧 , 它 只 包括 3 个 属性 : x. 
y 和 属于 mygroup 的 数据 点 。 


install.packages("ggplot2") # not required if package has been installed 
































































































































































































































data(anscombe) # load the anscombe dataset into the current workspace 











anscombe 

xl x2 x3 x4 yl y2 y3 y4 
1 10 0 10 8 8.04 9.14 7.46 6.58 
2 8 8 8 8 6.95 8.14 6.71 5.76 
3: 13 d.d. B 7.58 8.74 12.74 Jada 
4 9 9 g o8 X51 7 7.11 8.84 
SoLL dc I1 8 8,33. 9,260 7.81 8.47 
6 14 4 14 8 9.96 8.10 8.84 7.04 
7 6 6 6 8 7.24 6.13 6.08 5.25 
8 4 4 4 19 4.26 3.10 9.29. 12.50 
9 12 2 12 8 10.84 9.13 8.15 5.56 
10 7 7 7 8 4.82 7.26 6.42 7.91 
11. 5 5 5 8 5.68 4.74 S73 6.89 


3. 


3.2 探索 性 数据 分 析 





nrow(anscombe) # number of rows 
1] 1 


# generates levels to indicate which group each data point belongs to 
levels«- gl(4, nrow(anscombe) ) 

levels 

1] LETETT ET GTA SDD ee eS Boe 8-89 8-273 89 3-53 
34] 44444444444 

Levels: 12 34 








# Group anscombe into a data frame 
mydata«- with(anscombe, data.frame(x-c(x1,x2,x3,x4), y=c(yl,y2,y3,y4), 
mygroup-levels)) 


mydata 
x y mygroup 

Ll 10 8.04 1 
2 8 6.95 1 
3.13 J.59771 
4 9 8.81 -T 
41 19 12.50 4 
42 8 5.56 4 
43 8 7.91 4 
44 8 6.89 4 





# Make scatterplots using the ggplot2 package 
library (ggplot2) 
theme_set (theme_bw()) # set plot color theme 


# create the four plots of Figure 3.7 

ggplot (mydata, aes(x,y)) + 
geom_point (size=4) + 
geom smooth (method="1m", fill=NA, fullrange=TRUE) + 
facet wrap ( mygroup) 


2.2 ” 脏 数据 
这 一 节 将 讲解 在 可 视 化 数据 探索 阶段 侦 测 脏 数据 的 方法 。 通 常 ， 分 析 人 员 会 寻找 数据 中 的 






































沸 ， 然 后 通过 领域 知识 来 验证 数据 ， 最 后 寻找 最 合适 的 方法 来 清洗 数据 。 
考虑 一 个 一 家 银行 使 用 数据 分 析 来 衡量 客户 忠诚 度 的 场景 。 图 3.8 显示 的 是 银行 客户 的 年 
分 布 情况 。 
















































































































































































假设 年 龄 数据 保存 在 age 向 量 中 ， 下 面 的 R 脚本 可 以 创建 图 3.8: 


hist(age, breaks=100，main="Age Distribution of Account Holders", 
xlab="Age", ylab="Frequency", col="gray") 










































































































































































图 中 显示 客户 的 平均 年 龄 大 约 为 40 岁 。 少 数 客户 的 年 龄 不 到 10 岁 ， 低 龄 客户 不 常见 ， 但 
还 是 存在 的 。 因 为 这 些 可 能 是 家 长 为 孩子 设立 的 保管 账户 或 者 教育 储备 账户 。 这 些 账 户 应 该 
被 保留 用 于 将 来 的 分 析 。 




















第 3 章 使 用 R 进行 基本 数据 分 析 
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图 3.8 ”银行 客户 的 年 龄 分 布 



























































然而 ,图 3.8 的 左 测 有 一 个 巨大 的 峰值 ， 代 表 年 龄 是 0 岁 和 负数 的 用 户 。 这 些 可 能 是 缺失 
数据 (missing data), 一 种 可 能 的 解释 是 在 数据 输入 过 程 中 ， 无效 年 龄 被 蔡 换 成 0 或 这 
种 情况 可 能 是 由 于 年 龄 的 文本 框 中 只 允许 输入 数字 ， 而 不 允许 输入 空 值 造成 的 。 另 外 ， 它 也 可 
能 是 由 于 在 不 同系 统 中 传输 数据 时 ， 这 些 系统 对 于 无 效 值 有 不 同 定义 (比如 ，Nul、NA、0、 
1 或 者 -2 ) 造成 的 。 因 此 ,需要 对 异常 年 龄 段 的 账户 进行 数据 清洗 ( data cleansing )。 分 析 人 员 
应 该 仔细 查看 数据 记录 ， 以 决定 是 否 应 该 清除 缺失 数据 ， 或 者 是 否 可 以 使 用 其 他 合适 的 值 来 替 
换 这 些 账户 信息 。 
在 R 中 , 可 以 使 用 is.na0 函 数 来 测试 缺失 值 。 下 面 的 示例 创建 了 一 个 第 4 个 值 不 可 用 
的 向 量 x。is.na0 函 数 将 对 每 个 NA 值 返回 TURE ， 其 余 值 返回 FALSE. 


x <- c(l, 2, 3, NA, 4) 
is.na (x) 


FALSE FALSE FALSE TRUE FALSE 
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当 一 些 算术 函数 ， 比 如 mean0， 应 用 到 含有 缺失 值 的 数据 时 ， 会 产生 NA 的 结果 。 为 了 防 
止 这 种 情况 的 发 生 ， 可 以 在 函数 执行 期 间 设 置 na.rm 参数 为 TRUE ， 以 移 除 缺失 人 


































































































ean (x, na.rm-TRUE) 
1 245 





m 
[1] NA 
m 
[ 





H 




















na.excludeO 国 数 在 返回 对 象 时 会 将 不 完整 的 值 移 除 。 


DF «- data.frame(x = c(1, 2, 3), 
DF 
x y 
11 10 
22 20 
3 3 NA 

















y = c(10, 20, NA)) 


DF1 <- na.exclude (DF) 


3.2 探索 性 数据 分 析 





DF1 

x y 
11 10 
2 2 20 


100 罗 以 上 的 账户 可 能 是 由 于 错误 的 数据 输入 引起 的 。 另 一 种 可 能 是 这 些 账 户 已 经 被 传递 
给 原 账户 持 有 人 的 继承 者 ， 但 是 信息 没有 被 更 新 。 这 种 情况 下 ， 需 要 进一步 检查 数据 ， 必 中 




















































































































































































































































































































































































































































































































况 下 还 需要 清洗 数据 。 脏 数据 可 以 是 简单 的 删除 ， 也 可 以 使 用 一 个 年 龄 疹 值 进行 过 滤 以 备 后 续 
分 析 。 如 果 不 可 以 删除 记录 ， 分 析 人 员 也 可 以 寻找 数据 的 模式 〈pattern ) 来 应 对 脏 数据 。 例 如 ， 
错误 的 年 龄 值 可 以 使 用 基于 最 近 的 邻居 的 近似 值 (approximation ) 进行 蔡 换 ， 这 里 最 近 的 邻居 
是 指 在 分 析 所 有 除了 年 龄 以 外 的 变量 的 差异 时 ， 与 有 问题 的 记录 最 为 相似 的 记录 。 

图 3.9 是 另外 一 个 脏 数 据 的 例子 。 这 里 显示 的 分 布 对 应 于 一 家 银行 住房 贷款 组 合 的 按揭 年 





















































































































































份 。 按 揭 年 份 的 计算 方法 是 使 用 当前 日 期 减 去 贷款 的 起 始 日 期 。 纵 轴 对 应 于 每 个 按揭 年 份 对 应 
的 按揭 数量 。 


























按揭 年 份 分 布 ， 从 贷款 发 放 当 年 算 起 





0 2 4 6 8 10 
按揭 年 份 
图 3.9 ”一 家 银行 住房 贷款 组 合 自发 放 以 来 的 按揭 年 份 分 布 图 


假设 数据 保存 在 向 量 mortgage 中 ， 下 面 的 R 脚本 可 以 生成 图 3.9。 









































hist(mortgage, breaks-10, xlab="Mortgage Age", col-"gray", 
main-"Portfolio Distribution, Years Since Origination") 


图 3.9 显示 了 不 超过 10 年 期 限 的 按揭 情况 ， 其 中 10 年 期 按揭 的 量 相对 于 其 他 期 限 贷 ; 

要 高 很 多 。 一 种 可 能 的 解释 是 ， 图 中 的 10 年 期 按揭 不 只 包括 从 10 年 前 开始 的 按揭 ， 可 能 

括 从 更 早年 份 开始 的 按揭 。 换 名 话说 , 图 中 X 轴 的 数字 10 实际 上 是 表示 10。 这 种 情况 可 
能 


于 数据 曾经 从 一 个 系统 迁移 到 男 一 个 系统 , 也 可 能 是 由 于 数据 提供 者 以 前 没有 区 分 10 年 
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。 分 析 人 员 需 要 进一步 分 析 数据 ， 然 后 才能 决定 使 用 哪 种 方式 来 清洗 数据 。 
据 分 析 人 员 应 该 针对 领域 知识 进行 数据 完备 性 检查 ， 并 决定 及 数据 是 否 需要 清除 。 当 分 
9 的 概率 时 ， 如 果 过 去 的 观察 表明 大 多 数 的 违约 发 生 在 第 4 年 以 前 ,而 10 年 期 的 按揭 
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第 3 章 使 用 R 进行 基本 数据 分 析 









































少 发 生 违约 ,那么 就 可 以 安全 地 消除 脏 数 据 , 并 假设 拖欠 的 贷款 都 不 超过 10 年 。 
他 类 型 的 分 析 ， 也 许 有 必要 追踪 数据 产 ， 找 到 真正 的 按揭 起 始 日 期 。 

























































































































































































及 数据 可 能 是 由 于 玻 忽 的 行为 导致 。 从 本 章 开 头 所 使 用 的 sales 数据 中 可 以 看 到 ,订单 的 最 





































































































-一 | 


小 数量 为 1， 最低 年 销售 金额 是 30.02 美元 。 因 此 ,很 5 
售 数据 ， 而 仅仅 包括 过 去 一 年 内 购买 了 商品 的 客户 。 



















































































3.2.3 ”可视化 单个 变量 




































































能 sales 数据 集 没有 包括 所 有 客户 的 





探索 性 数据 分 析 的 一 个 标志 是 通过 可 视 化 来 表示 数据 : 用 数据 说 话 ， 胜 过 为 数据 强加 一 
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二 个 及 以 上 变量 之 间 关 系 。 






















































































先 验 (a priori ) 解释 。3.2.3 节 和 3.2.4 节 将 讲解 展示 数据 的 方式 ， 以 帮助 解释 单个 变量 的 分 布 或 



































































































































R 中 有 许多 函数 都 可 以 用 于 可 视 化 单个 变量 ， 表 3.4 列 出 了 其 中 的 一 些 函 数 。 
表 3.4 用 于 可 视 化 单个 变量 的 函数 示例 

函数 用 途 

plot(data) 点 图 ，X 轴 代 表 指 数 ，Y 轴 代 表 值 ， 适 合 于 少量 数据 

barplot(data) 有 垂直 和 水 平 条 的 条 形 图 

dotchart(data) 克 里 夫 兰 点 图 [12] 

hist(data) 直方 图 

plot(density(data)) 密度 图 (一 种 连续 直方 图 ) 

stem(data) Zit 

rug(data) 添加 一 个 数据 一 维 图 到 现 有 的 图 形 


























.点 图 和 条 形 图 
终 可 以 从 离散 变 



















































































量 中 绘制 带 标签 的 连续 值 . 在 R 中 ,可 以 使 用 dotchart(x, label=- 



































函数 创建 点 图 ， 其 中 x 表示 一 个 数值 向 量 ，label 表示 一 个 x 的 分 类 标签 向 量 。 条 形 图 F 
barplot(heighb 函 数 来 创建 ， 其 中 height 表示 一 个 向 量 或 阜 阵 。 图 3.10 H1 Ca) 点 状 图 和 


























































































































] 以 使 
(b) 
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cu 









































R 标准 发 行 版 中 可 以 找到 这 个 数据 集 。 
通过 下 面 的 R 代码 可 以 生成 图 3.10。 


data (mtcars) 



























































dotchart (mtcars$mpg, labels=row.names (mtcars),cex-.7, 
main-"Miles Per Gallon (MPG) of Car Models", 
xlab="MPG") 
barplot (table (mtcars$cyl), main="Distribution of Car Cylinder Counts", 
xlab="Number of Cylinders") 


H t 
多 图 都 基于 mecars 数据 集 ， 其 中 包括 32 种 汽车 的 油耗 ， 以 及 设计 和 性 能 方面 的 10 个 指 


标 。 
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3.2 ”探索 性 数据 分 析 





汽车 的 MPG (英里 /加 仑 ) 


Volvo 142E 
Maserati Bora 
Ferrari Din0 

Ford Pantera L 
Lotus Europa 
Porsche 914-2 
Fiat X1-9 

Pontiac Firebird 
Camaro Z28 
AMC Javelin 
Dodge Challenger 
Toyota Corona 
Tovota Corolla 
Honda Civic 

Fiat 128 

Chrysler Imperial 
Lincoin Continental [~ 


汽车 饶 数 的 分 布 


isl 


气缸 的 数量 
(a) (b) 


图 3.10 (a) 点 图 表示 汽车 的 MPG (b) 条 形 图 表示 汽车 抽 数 的 分 布 


Cadillac Fleetwood 
Merc 450SLC 
Merc 450SL 
Merc 450SE 

Merc 280C 

Merc 280 

Merc 230 

Merc 240D 
Duster 360 
Valiant 

Hornet Sportabout 
Homet 4 Drive 
Datsun 710 
Mazda RX4 Wag 
Mazda RX4 
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4A 
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2. 直方 图 和 密度 图 
图 3.11 (a) 是 一 张 家 庭 收入 的 直方 图 。 
} 表 示 更 高 收入 的 家 庭 。 
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的 左边 部 分 表示 有 很 多 低 收 入 的 家 庭 ， 右边 长 尾 
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收入 的 分 布 (log10) 
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收入 N-4000 带宽 =0.02069 
图 3.11 家 庭 收 入 的 (a ) 直方 图 和 (b) 密度 
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图 3.11 (b) 是 一 张 家 庭 收入 的 对 数 密度 图 ， 它 强调 的 是 分 布 。 家 庭 收 入 分 布 集中 
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在 图 的 中 














第 3 章 使 用 R 进行 基本 数据 分 析 






































间 部 分 。 下 面 的 R 代码 可 以 用 
突出 观察 到 的 分 布 。 


aa 
$ 
à 























绘制 图 3.11。rug0 函 数 在 图 形 的 底部 创建 了 一 个 一 维 密度 图 来 
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# randomly generate 4000 observations from the log normal distribution 
income«- rlnorm(4000, meanlog = 4, sdlog = 0.7) 
summary (income) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
4.301 33.720 54.970 70.320 88.800 659.800 
income«- 1000*income 
summary (income) 
Min. lst Qu. Median Mean 3rd Qu. Max. 
4301 33720 54970 70320 88800 659800 
# plot the histogram 
hist (income, breaks-500, xlab="Income", main-"Histogram of Income") 
# density plot 
plot (density (log10(income), adjust=0.5), 
main="Distribution of Income (log10 scale)") 
# add rug to the density plot 
rug (log10 (income) ) 


在 数据 分 析 生 命 周 期 的 数据 准备 阶段 ， 可 以 获知 数据 的 范围 和 分 布 。 如 果 数 据 有 倾斜 ， 



























































































































































































































































































































































查看 数据 的 对 数 ( 如 果 它 们 全 部 是 正 值 ) 可 以 帮助 发 现在 常规 的 非 对 数 图 中 可 能 会 被 忽视 的 
数据 特征 。 

E 如 前 面 解释 的 那样 ， 在 准备 数据 时 应 该 留意 任何 脏 数据 的 迹象 。 检 查 数据 是 单 峰 或 
峰 可 以 了 解 在 整体 人 口中 有 多 少 种 具有 不 同行 为 模式 的 人 群 。 许 多 建 模 技术 假设 数据 遵循 正 
态 分 布 。 因 此 ， 在 应 用 这 些 建 模型 技术 之 前 ， 要 搞 清楚 可 用 数据 集 是 否 符合 假设 。 


































































































布 : 
图 3.12 (a) 包含 两 张 钻石 价格 的 密度 图 (单位 为 美元 )， 分 别 对 应 钻石 优秀 切 工 和 理想 切 
工 。 优 秀 切 工 如 图 中 红色 部 分 所 示 ， 理 想 切 工 如 图 中 蓝 色 部 分 所 示 。 本 例 中 钻石 的 价格 分 布 非 
my) iz, AKA 300 美元 到 近 20000 美元 不 等 。 在 货币 数据 中 ， 比 如 收入 、 客 户 价值 、 税 务 负 
大 和 银行 账户 规模 ， 极 值 很 常见 。 
图 3.12 (b) 通过 对 数 展示 了 比 图 3.12 (a) 更 多 的 钻石 价格 细节 。 优 秀 切 工 部 分 的 两 个 峰 
代表 二 个 不 同 钻石 价格 组 别 : 一 组 中 心 在 logioprice=2.9 左右 〈 价格 大 概 为 794 美元 )， 
日 中 心 在 logioprice=3.7 左右 (价格 大 概 在 5012 美元 )。 理 想 切 工 部 分 有 三 个 峰值 ， 中 心 位 
JÆ 2.9, 3.3 和 3.7。 
成 图 3.12 的 R 脚本 代码 如 下 所 示 ， 其 中 diamonds 数据 集 来 源 于 ggplo 软件 


library ("ggplot2") 
data(diamonds) # load the diamonds dataset from ggplot2 
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# Only keep the premium and ideal cuts of diamonds 
niceDiamonds <- diamonds [diamonds$cut=="Premium" | 
diamonds$cut--"Ideal",] 


summary (niceDiamonds$cut) 
Fair Good Very Good Premium Ideal 
0 0 0 13791 21551 


3.2 ”探索 性 数据 分 析 





# plot density plot of diamond prices 
ggplot (niceDiamonds, aes(x-price, fill=cut)) + 
geom_density(alpha = .3, color=NA) 


# plot density plot of the logl0 of diamond prices 
ggplot (niceDiamonds, aes(x=logl0 (price), fill=cut)) + 
geom_density(alpha = .3, color=NA) 


lattice 软件 包 中 的 densityplotO eA Beth 8] VA flf Ef 92 REA, 用 户 可 以 作为 ggplot2 软件 
包 的 替代 。 
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(a) (b) 
图 3.12 (a) 钻石 价格 密度 图 和 (b) 钻石 价格 对 数 密度 图 














3.2.4 研究 多 个 变量 
散 点 图 (如 图 3.1 和 图 3.5 所 示 ) 是 一 种 被 广泛 使 用 的 简单 的 可 视 化 方法 ， 用 于 寻找 多 个 变 
量 之 间 的 关系 。 散 点 图 可 以 使 用 X 轴 、Y 轴 、 大 小 、 颜 色 和 形状 代表 数据 的 5 种 变量 ， 但 是 
般 情 况 下 散 点 图 中 只 使 用 2 到 4 种 变量 来 描绘 数据 ， 以 免 造 成 混乱 。 当 检查 一 个 散 点 图 时 ， 需 
要 密切 关注 变量 之 间 可 能 的 关系 。 如 果 变 量 之 间 的 函数 关系 比较 明显 ， 数 据 就 可 能 被 描画 成 
条 直线 一 条 抛物 线 或 者 一 条 指数 曲线 ,此 外 ,如 果 变 量 Y 与 变量 X 呈 指数 关系 ,那么 与 log(7) 
的 关系 是 近似 线性 的 。 如 果 散 点 图 看 起 来 没有 什么 特征 ， 那 么 变量 间 可 能 只 存在 弱 关 联 。 
到 3.13 中 的 散 点 图 描述 了 二 种 变量 和 了 的 关系 。 图 中 红线 是 线性 回归 生成 的 拟 合 直线 。 
可 以 看 出 数据 不 符合 线性 分 布 , 因而 不 适合 使 用 线性 回归 来 拟 合 示 例 中 变量 的 关系 。loess0 〇 等 函 
数 可 以 用 来 拟 合 非 线 性 数据 。 图 中 蓝 线 表 示 LOESS 曲线 ， 它 与 数据 的 吻合 度 优 于 线性 回归 。 线 
3 将 在 后 面 的 第 6 章 讲解 。 
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3.13 ”用 回归 研究 二 个 变量 






































生成 图 3.13 的 R 代码 如 下 所 示 。 首 先 ， 使 用 runif75,0,10) 命 令 以 随机 模拟 的 方式 在 0 一 10 


之 间 生 成 75 个 数字 ， 这 些 数字 符合 均匀 分 布 。 然 后 ， 再 使 用 rnorm(75,0,20) 命 令 生 成 75 个 符合 
正 态 分 布 的 数字 ， 其 中 均值 等 于 0， 标 准 差 等 于 20。 最 后 ， 使 用 谤 型 函数 points0 在 指定 坐标 上 
绘制 一 个 点 序列 ， 其 中 参数 type=“1” 用 于 指定 函数 画 一 条 实 线 ，col 参数 用 于 设 定 线 的 颜色 ， 


2 代表 红色 ，4 代表 蓝 色 。 


# 75 numbers between 0 and 10 of uniform distribution 
x «- runif(75, 0, 10) 









































































































































































































































x «- sort (x) 
y «- 200 + x^3 - 10 * x^2 + x + rnorm(75, 0, 20) 


lr <= lity ~ X) # linear regression 
poly «- loess(y ~ x) # LOESS 

fit«- predict (poly) # fit a nonlinear line 
plot (x, y) 


# draw the fitted line for the linear regression 
points(x, lr$coefficients[1] + lr$coefficients[2] * x, 
type = "I", col = 2) 


# draw the fitted line with LOESS 
points(x, fit, type = "I", col = 4) 


点 图 和 条 形 图 
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图 3.14 是 一 个 在 数据 集 mtcars 上 生成 的 点 图 , Y 轴 表 示 以 气缸 数量 对 汽车 型 号 分 组 ,并 使 
j 颜 色 来 区 分 不 同 气缸 数量 的 汽车 型 号 。 在 X 轴 上 , 根据 MPG 值 将 汽车 进行 排序 。 生 成 图 3.14 
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的 代码 如 下 所 示 。 


# sort by mpg 
cars«- mtcars [order (mtcars$mpg),] 


# grouping variable must be a factor 
cars$cyl <- factor (cars$cyl) 


cars$color[cars$cyl--4] «- "red" 
cars$color[cars$cyl--6] <- "blue" 
cars$color[cars$cyl--8] «- "darkgreen" 


dotchart (cars$mpg, labels-row.names(cars), cex-.7, groups- cars$cyl, 
main-"Miles Per Gallon (MPG) of Car Models\nGrouped by Cylinder", 
xlab-"Miles Per Gallon", color-cars$color, gcolor="black") 


汽车 的 MPG， 按 照 气 缸 来 分 组 


Toyota Corolla 
Fiat 128 

Lotus Europa 
Honda Civic 
Fiat X1-9 
Porsche 914-2 
Merc 240D 
Merc 230 
Datsun 710 
Toyota Corona 
Volvo 142E 


Hornet 4 Drive 
Mazda RX4 Wag 
Mazda RX4 
Ferrari Dino 
Merc 280 
Valiant 

Merc 280C 


Pontiac Firebird 
Hornet Sportabout 
Merc 450SL 

Merc 450SE 

Ford Pantera L 
Dodge Challenger 
AMC Javelin 

Merc 450SLC 
Maserati Bora 
Chrysler Imperial 
Duster 360 
Camaro 228 
Lincoln Continental 
Cadillac Fleetwood 


10 15 25 30 


20 
英里 /加 仑 (MPG) 
图 3.14 ”点 图 用 于 可 视 化 多 个 变量 


















































图 3.15 展示 了 汽车 气缸 数 量 和 此 轮 数量 的 分 布 情况 。X 轴 表 示 和 气缸 的 数量 ， 不 同 颜 
不 同 丙 轮 数量 。 生 成 图 3.15 的 代码 如 下 所 示 。 
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counts«- table (mtcars$gear, mtcars$cyl) 
barplot(counts, main-"Distribution of Car Cylinder Counts and Gears", 
xlab-"Number of Cylinders", ylab-"Counts", 
col=c("#0000FFFF", "£0080FFFF", "400FFFFFF"), 
legend = rownames (counts), beside-TRUE, 
args.legend = list(x-"top", title = "Number of Gears")) 


汽车 气缸 和 齿轮 数量 的 分 布 





10 
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La 6 
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气缸 的 数量 




















图 3.15 ”通过 条 状 图 来 可 视 化 多 个 变量 























2. 箱 线 图 (box-and-whisker plot) 

箱 线 图 可 以 为 一 个 离散 变量 的 每 个 值 显示 一 个 连续 变量 的 分 布 。 图 3.16 显示 了 美国 不 同 区 
域 的 家 庭 平均 收入 情况 。 美 国 邮政 编码 的 首位 数字 对 应 着 一 个 美国 地 区 。 在 图 3.16 中 ， 每 个 数 
据点 对 应 着 一 个 特定 邮政 编码 代表 的 地 区 的 中 位 数 家 庭 收入 。 图 中 水 平 轴 代 表 数 字 邮 政 编码 的 
第 一 位 数字 ,范围 从 0 SJ 9, 数字 0 代表 美国 东北 地 区 (比如 顷 因 州 、 佛 蒙特 州 、 马 萨 诸 塞 州 )， 
数字 9 代表 美国 西南 地 区 (比如 加 州 和 夏威夷 州 ) 图 中 纵 轴 代表 中 位 数 家 庭 收入 的 对 数 ,， HK 
] 对 数 是 为 了 更 好 地 查看 中 位 数 家 庭 收 入 的 分 布 。 

在 此 图 中 ， 散 点 图 显示 在 箱 线 图 下 方 ， 有 些 拌 动 的 重合 点 使 得 每 一 行 的 点 扩大 为 带 状 。 箱 
线 图 的 盒子 显示 的 范围 包含 中 间 50% 范 围 的 家 庭 收入 数据 ， 盒 中 的 线 位 于 中 位 数值 的 位 置 。 盒 
子 的 上 下 边缘 对 应 数据 的 第 一 和 第 三 个 四 分 位 。 从 盒子 顶部 到 最 高 值 的 直线 大 概 在 1.5 倍 IQR 
之 内 ， 而 盒子 底部 到 最 低 值 的 直线 也 大 概 在 1.5 倍 IQR ZA. IQR 指 四 分 位 范围 ， 在 前 面 3.1.4 
节 讲 解 过 。 那 些 超出 直线 范围 之 外 的 点 可 以 被 理解 为 异常 值 。 
图 3.16 显示 了 家 庭 收入 因 地 区 而 录 。 最 高 的 中 位 数 收入 在 区 域 0 和 区 域 9。 其 中 ,区 域 0 
略 高 ， 但 是 二 个 区 域 的 盒子 拥有 很 大 的 重 琶 ， 因 此 二 个 区 域 家 庭 收 入 差异 并 不 明显 。 最 低 家 庭 
收入 出 现在 区 域 7， 该 区 域 包括 路 易 斯 安 那州 、 咱 和 俄 克 拉 何 马 州 。 
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3.2 ”探索 性 数据 分 析 





平均 家 庭 收 入 ， 按 照 邮编 分 组 


log10 (MeanHouseholdIncome) 





4.0- 


0 1 2 3 4 5 6 7 8 9 
Zipl 


图 3.16 箱 线 图 表示 中 位 数 家 庭 收 入 和 地 理 区 域 的 关系 





























假设 数据 帧 DF 包含 两 列 ( MeanHouseholdIncome 和 Zipl )， 下 面 的 R 脚本 用 ggplot2 软件 
库 [11] 可 以 绘制 与 图 3.16 类 似 的 图 。 
library (ggplot2) 
# plot the jittered scatterplot w/ boxplot 
# color-code points with zip codes 
# the outlier.size=0 prevents the boxplot from plotting the outlier 
ggplot (data=DF, aes(x-as.factor(Zipl), y-log10(MeanHouseholdIncome))) + 
geom point (aes (color=factor(Zipl)), alpha=0.2, position="jitter") + 
geom boxplot (outlier.size=0, alpha=0.1) + 
guides (colour=FALSE) + 
ggtitle ("Mean Household Income by Zip Code") 


男 外 ， 通 过 R 基础 包 中 的 boxplot0 函 数 也 可 以 创建 一 些 简单 的 箱 线 图 。 
3. 适用 于 大 型 数据 集 的 蜂 梨 图 (hexbinplot) 
本 章 已 经 介绍 了 散 点 图 这 种 用 于 可 视 化 包含 一 个 或 多 个 变量 的 数据 的 方法 。 但 是 ， 当 存 
在 大 量 数据 时 ， 散 点 图 很 容易 造成 严重 的 数据 点 重 登 ， 因 而 在 观察 数据 时 显得 “力不从心 ”。 
图 3.17 是 一 个 研究 家 庭 收入 的 对 数 与 受 教 育 年 限 关系 的 案例 。 左 图 Ca ) 显示 两 个 变量 之 间 有 某 
种 线性 关系 ， 然 而 人 们 从 图 中 很 难看 出 聚 类 中 数据 的 分 布 规律 。 这 是 使 用 散 点 图 分 析 大 数据 时 
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经 背 遇 到 的 问题 ， 因 此 ， 在 分 析 数 百 万 甚至 上 亿 的 数据 点 时 ， 需 要 使 用 不 同 的 方法 来 探索 、 可 
视 化 和 分 析 。 
T -5 = Counts 
P = uod 
s 5 $523 
2 so 25 2 
2s $^" a 
三 £ 2848 
8 45]g 5454 T 
E 3 E 1051 
E 739 
= 2 ss 
S 404° 54.07 3° 
eb “ oD 39 
o 2 + - T “1 
E T 3 0 5 10 
0 5 10 15 . 
MeanEducation MeanBducation 
(a) (b) 
图 3.17 分 析 家 庭 收入 与 受 教 育 年 限 的 散 点 图 (a) MERK (b) 
虽然 在 散 点 图 中 可 以 利用 颜色 和 透明 度 解决 这 个 问题 ， 但 是 蜂巢 图 有 时 候 会 是 一 个 更 好 的 
选择 。 蜂 梨 图 结合 了 散 点 图 和 直方 图 的 理念 。 与 散 点 图 类 似 ， 它 利用 X 轴 和 YY 轴 可 视 化 数据 。 
数据 被 放置 到 蜂巢 中 ， 并 使 用 阴影 作为 第 三 维度 来 表示 最 后 在 每 个 蜂巢 中 的 数据 浓度 。 
图 3.17 Cb ) 使 用 蜂 集 图 展示 了 相同 的 数据 。 图 中 显示 数据 主要 集中 在 一 条 贯穿 聚 类 中 心 的 
可 归 线 附近 。 数 据 值 最 多 集中 在 受 教 育 年 限 为 12 年 左右 ， 也 有 不 少 沙 在 12 年 到 15 年 之 间 。 
到 3.17 中 ， 出 现 了 一 些 MeanEducation=0 的 异常 数据 ， 这 些 可 能 是 缺失 数据 ， 需 要 进 
步 清洗 。 
Rikt MeanHouseholdIncome 和 MeanEducation 源 于 数据 帧 zcta ,那么 可 以 使 用 下 面 的 有 
代码 绘制 出 图 3.17 Ca). 
# plot the data points 
plot (log10 (MeanHouseholdIncome) ~ MeanEducation, data-zcta) 
# add a straight fitted line of the linear regression 
abline(1m(logl10(MeanHouseholdIncome) ~ MeanEducation, data=zcta), col='red') 
当 使 用 数据 帧 zcta 时 ， 使 用 下 面 的 R 代码 可 以 绘制 出 峰 梨 图 3.17 (b) 运行 下 面 的 代码 需 
要 使 用 hexbin 软件 包 ， 该 软件 包 可 以 通过 运行 install .packages(“hexbin”) 命 令 进 行 安装 。 
library (hexbin) 
# "g" adds the grid, "r" adds the regression line 
# sqrt transform on the count gives more dynamic range to the shading 
# inv provides the inverse transformation function of trans 
hexbinplot (log10 (MeanHouseholdIncome) ~ MeanEducation, 
data-zcta, trans = sqrt, inv = function(x) x^2, type-c("g", "r")) 
4， 散 点 图 矩阵 (scatterplot matrix) 
散 点 图 矩阵 可 以 紧凑 地 并 排 显 示 多 张 散 点 图 。 因 此 ， 散 点 图 矩阵 可 以 同时 表示 数据 集 的 多 




































































3.2 ”探索 性 数据 分 析 











个 属性 ， 以 便 研究 它们 的 关系 ， 放大 差异 ， 以 及 揭示 其 中 隐藏 的 模式 。 

Fisher 的 iris 数据 集 [13] 包 括 三 类 高 尾 属 植物 中 50 BEATER. TER EE. EMR EF 
花 六 宽度 的 测量 数据 C 以 厘米 为 单位 )。 这 三 类 高 尾 属 植 物 分 别 是 山高 尾 、 云 芝 和 锦 葵 。 高 尾 居 
植物 数据 集 可 以 在 R 标准 发 行 版 中 找到 。 
在 图 3.18 中 ， 使 用 散 点 图 矩阵 比较 Fisher 高 尾 属 植物 数据 集 的 所 有 变量 CIE 

TE, FORK ARS )， 其 中 三 种 不 同 的 颜色 分 别 代表 三 种 芒 尾 属 开 花 植物 。 图 3.18 的 
散 点 图 矩阵 对 比 了 高 尾 属 植 物 在 任意 一 对 属性 上 的 差异 。 
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图 3.18 Fisher[13] 营 尾 属 植物 数据 集 的 散 点 图 矩阵 















































让 我 们 来 分 析 一 下 图 3.18 第 1 行 第 3 列 的 散 点 图 ， 对 比 花 得 长 度 和 花 淤 长 度 。 该 图 横 有 
花瓣 长 度 ， 纵 轴 表 示 花 苇 长 度 。 该 图 显示 云 芝 和 锦 葵 拥有 相近 的 花 革 和 花 匆 长度， 但 是 后 
更 长 的 花 泊 。 所 有 山高 尾 的 花瓣 长 度 都 差不多 相同 ， 但 是 明显 比 其 他 两 种 植物 要 短 许多 
点 图 显示 ， 对 于 云 芝 和 锦 蓉 ， 花 等 长 度 随 花瓣 长 度 线性 增长 。 

下 列 的 R 代码 可 以 生成 上 面 的 散 点 图 和 矩阵。 


# define the colors 
colors «- c("red", "green", "blue") 
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gts on 










































































第 3 章 使 用 R 进行 基本 数据 分 析 





# draw the plot matrix 
pairs(iris[1:4], main = "Fisher's Iris Dataset", 
pch = 21, bg = colors[unclass (iris$Species)] ) 


# set graphical parameter to clip plotting to the figure region 
par(xpd = TRUE) 


# add legend 





















































legend(0.2, 0.02, horiz = TRUE, as.vector (unique (iris$Species)), 
fill = colors, bty = "n") 
向 量 colors 用 于 定义 该 图 的 颜色 方案 ， 通 过 设置 colors <- c(“gray50”, “white”, "black")H] V], 



































将 图 改 为 灰 度 散 点 图 。 
5. 分 析 时 间 轴 上 的 变量 
可 视 化 时 间 轴 上 的 变量 与 可 视 化 其 他 变量 一 样 ， 只 是 目标 是 确定 与 时 间 相 关 的 模式 。 
图 3.19 绘制 了 从 1940 年 1 月 到 1960 年 12 月 国际 航空 公司 每 个 月 的 乘客 数量 。 在 R 控制 
台 输 入 plot(AirPassengers) 命 令 可 以 获得 一 个 类 似 的 图 。 从 图 中 可 以 看 到 ， 每 年 年 中 的 7 月 和 8 
会 出 现 一 个 乘客 高 峰 ， 而 年 底 由 于 假期 因素 也 会 出 现 一 个 小 高 峰 。 这 种 现象 被 称 为 季节 性 效 
应 (seasonality effect )。 
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3.19 1949 到 1960 年 间 ， 航 空 公司 乘客 的 数量 









































此 外 ， 从 1949 年 到 1960 年 航空 公司 乘客 数量 总 体 趋势 是 稳步 增长 。 第 8 章 还 会 详细 地 分 
析 这 个 数据 集 。 
































3.2.5 “对 比 数据 探索 和 数据 演示 


运用 可 视 化 进行 数据 探索 不 同 于 向 利益 相关 者 演示 结果 。 并 不 是 每 种 图 表 类 型 都 适合 所 

















































































































3.2 探索 性 数据 分 析 










































































有 受众 。 前 面 讨论 的 大 部 分 图 表 都 是 尽 可 能 清楚 地 展示 数据 细节 ， 以 帮助 数据 科学 家 了 解数 
据 的 构成 和 数据 间 的 关系 。 这 些 图 表 天 然 地 更 适合 数据 科学 家 这 样 的 技术 人 员 查看 。 然 而 ， 
非 技 术 出 身 的 利益 相关 者 更 喜欢 通过 简单 和 清晰 的 图 片 来 获取 数据 传达 的 信息 ， 
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图 3.20 中 的 密度 图 显示 了 一 家 银行 中 账户 余额 的 分 布 情况 ， 余 额 数据 已 经 被 转换 到 logio 
的 刻度 。 该 图 底部 的 轴 须 图 表示 变量 分 布 到 更 适合 数据 科学 家 和 业务 分 析 师 查看 ， 
为 它 提供 了 与 下 游 分 析 相 关 的 信息 。 图 中 显示 ， 转 换 后 的 账户 余额 遵循 近似 的 正 态 分 布 ， 范 
FRA 100 美元 到 10000000 美元 ， 其 中 账户 余额 中 值 大 约 为 30000(10*”) 美 元 ， 大 部 分 账户 余额 
在 1000(103) 美 元 到 10000000(109 美 元 之 间 。 






































































































































































































































账户 价值 的 分 布 (log10) 
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2 3 4 5 6 7 
N-5000 带宽 =0.05759 




















图 3.20 ”密度 图 更 适合 数据 科学 家 查看 



































密度 图 中 包含 的 很 多 技术 细节 很 难 向 不 懂 技 术 的 利益 相关 者 解释 。 例 如 ， 很 难 向 他 们 解释 
为 什么 使 用 logio 的 比例 来 显示 账户 余额 ， 因 为 这 个 刻度 对 利益 相关 者 没有 直接 意义 。 要 传达 与 
到 3.20 同样 的 信息 ， 可 以 将 数据 按 范围 划分 成 桶 ,然后 将 其 显示 为 直方 图 ， 如 图 3.21 所 示 。 从 
到 3.21 可 以 看 出 ， 大 部 分 账户 余额 落 在 1000 美元 到 1000000 美元 之 间 ， 最 多 集中 在 10000 美 
元 到 50000 美元 之 间 ， 不 少 也 沙 在 50000 美元 到 500000 美元 之 间 。 与 图 3.20 中 的 密度 图 相 比 ， 
利益 相关 者 更 容易 通过 图 3.21 理解 账户 的 分 布 。 
















































































































































































































































































































































































































































































































































































































































































直方 图 中 的 桶 大 小 的 选择 需要 特别 注意 ， 以 免 造成 数据 失真 。 在 本 例 中 ， 图 3.21 中 的 桶 大 
小 是 根据 观察 图 3.20 中 的 密度 图 来 选择 的 。 如 果 没 有 密度 图 作为 参考 依据 ， 随 意 选 择 桶 大 小 将 
5 按 影 响 对 余额 最 集中 范围 的 认 知 。 

这 个 简单 的 例子 满足 了 分 析 人 员 和 利益 相关 者 这 两 组 用 户 的 不 同 需求 。 第 12 章 将 进一步 讨 
论 向 这 两 组 用 户 展示 数据 的 最 佳 实践 。 















































第 3 章 使 用 R 进行 基本 数据 分 析 
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图 3.21 ”直方 图 更 适合 利益 相关 者 查看 









































生成 图 3.20 和 图 3.21 的 R 代码 如 下 所 示 。 


# Generate random log normal income data 
income = rlnorm(5000, meanlog-10g(40000), sdlog=log(5) ) 














# Part I: Create the density plot 

plot (density (l1og10(income), adjust=0.5), 
main-"Distribution of Account Values (log10 scale)") 

# Add rug to the density plot 

rug (log10 (income) ) 


# Part II: Make the histogram 
# Create "log-like bins" 
breaks = c(0, 1000, 5000, 10000, 50000, 100000, 5e5, 1e6, 2e7) 
# Create bins and label the data 
bins = cut(income, breaks, include.lowest=T, 
labels = c("< 1K", "1-5K", "5-10K", "10-50K", 

"50-100K", "100-500K", "500K-1M", "> 1M") ) 

# Plot the bins 


plot (bins, main = "Distribution of Account Values", 
xlab = "Account value ($ USD)", 
ylab = "Number of Accounts", col="blue") 


3.3 用 于 评估 的 统计 方法 


可 视 化 能 有 助 于 数据 探索 和 展示 ， 而 统计 则 是 不 可 或 缺 的 ， 因 为 它 可 能 在 整个 数据 
命 周 期 无 处 不 在 。 统 计 技术 被 用 在 许多 场合 ， 比 如 最 初 的 数据 探索 和 数据 准备 、 模 型 建 ， 
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型 评估 ， 以 及 评估 新 模型 在 现场 部 闭 时 如 何 改进 现 况 。 此 外 ， 统 计 可 以 帮助 答 数 据 jj 
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3.3 ”用 于 评估 的 统计 方法 




















四 ”最 好 的 模型 输入 变量 是 什么 ? 
四 ”对 于 给 定 的 输入 ， 模 型 可 以 预测 结果 四 ? 
e 模型 评估 

















































































































四 ”模型 是 否 精确 ? 
四 ”模型 是 否 会 强 于 明显 的 猜测 ? 
四 ”这 个 模型 是 否 比 其 他 模型 好 ? 



































e RABE 
m Duc PER? 
量 。 模型 是 否 达到 预期 的 效果 (比如 ， 降 低 成 本 ) ? 
本 节 将 讨论 一 些 可 以 回答 这 些 问 题 的 有 用 的 统计 工具 。 

















































































































3.3.1 假设 检验 


在 比较 入 口 时 , 例如 检验 或 评估 两 个 样本 数据 的 均值 差异 ( 见 图 3.22 ), 假设 检验 是 一 种 用 
来 评估 差异 或 差异 显 车 性 的 常见 技术 。 































































































图 3.22 ”两 个 样本 数据 的 分 布 



























































假设 检验 的 基本 概念 是 先 做 出 某 种 假设 ， 然 后 使 用 数据 进行 检验 。 在 进行 假设 检验 时 ， 通 
常 假 设 两 个 样本 之 间 没 有 差异 。 这 是 测试 或 者 科学 实验 时 的 默认 假设 ,统计 学 家 称 之 为 原 假设 
(null hypothesis ) ( Ho )。 备 择 假设 ( alternative hypothesis ) ( H4 ) 则 认为 两 个 样本 之 间 通 常 存在 











































































































第 3 章 使 用 R 进行 基本 数据 分 析 
























































差异 。 例 如 ， 当 比较 药物 A 和 药物 B 对 患者 的 疗效 时 ， 原 假设 和 备 择 假设 分 别 会 
@ Ho: AWA 和 药物 B 对 患者 有 相同 疗效 。 
@ H,: 药物 A 对 患者 的 疗效 比 药 物 B 更 明显 。 
当 确定 广告 投放 C 是 否 有 效 地 减少 了 客户 流失 时 ， 原 假设 和 备 择 假设 分 别 会 是 : 
e Ay: 相 较 于 当前 的 广告 投放 方法 ， 投 放 C 没有 减少 客户 流失 。 
e Ay: 相 较 于 当前 的 广告 投放 方法 ， 投 放 C 更 好 地 减少 了 客户 流失 。 
正确 地 阐述 原 假 设 和 备 择 假设 非常 重要 ， 否 则 可 能 破坏 假设 检验 过 程 的 后 续 步 又 。 假 设 检 
验 的 结果 要 么 否定 原 假 设 而 文 持 备 择 假 设 ， 要 么 接受 原 假设 。 
K 3.5 中 罗列 了 一 些 在 分 析 生 命 周 期 中 应 该 检验 的 原 假设 和 备 择 假设 的 例子 。 


R35 原 假设 和 备 择 假设 的 例子 






























































































































































































































































































































































































































































































































































应 用 原 假设 备 择 假设 

精度 预测 “| 模型 X 的 预测 没有 好 于 现 有 模型 模型 X 的 预测 好 于 现 有 模型 

推荐 引擎 | 算法 Y 生成 的 推荐 没有 好 于 当前 使 用 的 算法 | 算法 Y 生成 的 推荐 好 于 当前 使 用 的 算法 
可 归 建 模 | 某 变量 不 会 影响 输出 ， 因 为 它 的 系数 为 零 某 变量 会 影响 输出 , 因为 它 的 系数 不 为 零 









































一 旦 模型 在 训练 数据 上 建立 起 来 ， 就 需要 通过 测试 数据 进行 评估 ， 以 判断 新 模型 的 预测 
i 正在 使 用 的 模型 。 这 里 原 假设 是 新 模型 的 预测 没有 好 于 现 有 的 模型 ， 备 择 假设 


















































































































































































































































































































































































































































































































































etf Tg 
新 模型 的 预测 确实 好 于 现 有 模型 。 在 精度 预测 中 ， 原 假设 可 能 是 FT HEUS ENIRE. 
假设 检验 需要 评估 新 模型 是 否 可 以 提供 更 好 的 预测 。 以 推荐 引擎 为 例 ， 这 里 原 假设 是 ， 与 当 
前 使 用 的 算法 相 比 ， 新 算法 并 没有 生成 更 好 的 推荐 ; 备 择 假设 是 新 算法 会 生成 比 现 有 算法 更 
好 的 推荐 。 

当 评估 一 个 模型 时 ， 有 时 需要 确定 一 个 给 定 的 输入 变量 是 否 会 改进 模型 。 比 如 在 回归 分 
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55 6 章 ) 中 9 这 EPAM H E 个 变 量 的 加 | 系数 是 否 为 零 。 这 里 原 假 设 EE 系数 为 零 A ， 代 表 
该 变量 不 会 对 输出 产生 影响 ， 备 择 假设 是 系数 不 为 零 ， 代 表 该 变量 会 对 输出 产生 影响 。 
一 种 常见 的 假设 检验 是 比较 两 个 群体 的 均值 ， 这 将 在 3.3.2 节 进 行 讨论 。 



























































































































































3.3.2 ”均值 差异 


假设 检验 是 一 种 常见 的 推论 方法 ， 用 来 决定 两 个 群体 ( 以 popl 和 pop2 表示 ) 是 否 彼此 不 























































































































































































































同 。 本 节 会 介绍 两 种 假设 检验 ， 基 于 从 每 个 群体 中 随机 抽取 的 样本 来 比较 群体 的 均值 。 具 体 而 
言 ， 这 两 种 假设 检验 考虑 以 下 原 假设 和 备 择 假设 。 

€ Hy n= 

© Hi: Alb 








Ly 和 jw 分 别 代表 popl 和 pop2 的 群体 均值 。 
基本 的 校 验方 法 是 比较 两 个 群体 对 应 的 抽样 均值 X PX 。 如 果 X CRI X 2 的 值 大 致 相 和 
























































































































































3.3 ”用 于 评估 的 统计 方法 











Ju] X FAX. D EGRE ( 见 图 3.23 ), 原 假设 成 立 。 如 果 抽 样 均值 之 闻 有 很 大 的 差异 ， 则 于 
明 应 该 否定 原 假设 。 均 值 的 差异 可 以 使 用 学 生 + 检 验 或 者 Welcht 检验 进行 正式 地 检测 。 
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E323 ” 当 义 | 六 和 X，， 两 个 分 布 的 重 雪 较 大 

















1. 学 生 t 检 验 

学 生 t 检验 假设 两 个 群体 的 分 布 相等 ， 但 方差 未 知 。 假 设 m 和 no 抽样 是 从 两 个 群体 pop7 
和 pop2 中 随机 且 独 立地 选择 的 。 如 果 每 个 群体 满足 正 态 分 布 ， 而 且 具 有 相同 的 均值 (mm= 心 ) 
和 相同 的 方差 , 则 公式 3-1 中 的 T(t 统计 ) 遵循 一 个 自由 度 (degrees of freedom, df ) 为 ni&n7-2 
的 1 分 布 。 









































































































































































































































T= Xı— Xa 
S, : 
n tn, 
其 中 ji DSL UR - 87 (3.1) 
n ^n,—2 
























































1 分 布 的 形状 类 似 于 正 态 分 布 。 事实 上 ， 当 自由 度 接近 30 或 更 大 时 , 1 分 布 几乎 等 同 于 正 态 
分 布 。 由 于 抽样 均值 的 差异 体现 在 T 的 分 子 上 ， 如 果 了 的 观测 值 离 0 足够 远 ， 以 至 于 不 可 能 观 
测 到 这 样 的 一 个 了 值 ， 人们 会 否定 群体 均值 相等 的 原 假 设 。 因 此 ， 对 于 一 个 小 概率 ,比如 o=0.05， 
TT 的 取 值 使 得 PUT [7 T) = 0.05 。 在 抽样 和 根据 公式 3-1 计算 出 观测 值 后 , UR [T E T" ， 原 假 
设 (m=) 会 被 否定 。 

一 般 来 说 ， 在 假设 检验 中 ， 小 概率 a 被 称 为 检验 的 显 车 性 水 平 ( signficance level )。 当 原 假 
设 成 立时 ,检验 的 显著 性 水 平 是 否定 原 假设 的 概率 。 换 句 话说 ， 当 a=0.05， 如 果 两 个 群体 的 均 




















































































































































































































































































































































































































那么 在 重复 的 随机 抽样 中 ，T 的 观察 幅度 (magnitude) 只 会 超过 7T5% 的 时 间 。 
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在 下 面 的 R 代码 示例 中 ，10 个 观测 数据 是 从 两 个 正 态 分 布 群体 中 随机 抽取 的 ， 然 后 分 配给 
变量 X 和 了 。 两 个 群体 的 均值 分 别 为 100 和 105 ， 标 准 偏差 等 于 5。 然后 进行 学 生 LESS, DS 
定 获 得 的 随机 样本 是 否 支持 对 原 假设 的 否定 。 


# generate random observations from the two populations 
x «- rnorm(10, mean-100, sd-5) 4 normal distribution centered at 100 

















































































































































































































第 3 章 使 用 R 进行 基本 数据 分 析 


y <- rnorm(20, mean-105, sd-5) 4 normal distribution centered at 105 


t.test(x, y, var.equal-TRUE) 4 run the Student's t-test 
Two Sample t-test 


data: x and y 
t = -1.7828, df = 28, p-value = 0.08547 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-6.1611557 0.4271893 
sample estimates: 
mean of x mean of y 
102.2136 105.0806 

























































































R 代码 的 输出 结果 中 可 以 看 到 ,7 的 观测 值 是 二 -1.7828。 负 号 是 由 于 和 的 抽样 均值 小 
7 的 抽样 均值 导致 的 。 使 用 RR 的 qt0 函 数 计算 得 出 ,7T 值 2.0484 对 应 于 0.05 的 显 车 性 水 平 
# obtain t value for a two-sided test at a 0.05 significance level 


qt (p=0.05/2, df=28, lower.tail= FALSE) 
2.048407 










































































































































































由 于 所 观察 到 的 了 统计 值 幅度 小 于 0.05 显著 值 水 平时 的 T 值 C[171.7828|«2.0484 ), 所 以 原 
假设 不 会 被 否定 。 因 为 备 择 假设 是 均值 不 相等 (ji 关 1w )， 因 此 需要 考虑 j4>jpw Fl ny <b 这 两 种 情 
况 的 概率 。 这 种 形式 的 学 生 t 检验 被 称 为 双边 假设 检验 (two-sided hypothesis test) , 两 个 + 
分 布 的 尾部 的 概率 之 和 应 该 等 于 显著 性 水 平 。 人 们 习惯 在 两 个 尾部 之 间 均 匀 地 划分 显著 性 水 平 。 
比 ，qt0 函 数 使 用 p=0.05/2=0.025 来 获得 合适 的 t 值 。 
为 了 简化 t 检 验 结果 与 显著 性 水 平 的 比较 ，R 输出 中 包括 一 个 p 值 (p-value )。 在 前 面 的 例 
Fh, p 值 为 0.08547, "EXE P(T<-1.7828) 和 P(T=1.7828) 的 总 和 。 图 3.24 展示 了 1 分 布 尾部 区 
域 的 1 统计 。-t 和 + 都 是 1 统计 的 观测 值 。 在 R 输出 中 ， 三 1.7828。 左 边 的 阴影 区 域 对 应 POT 
-1.7828)， 右 边 的 阴影 则 对 应 P(TS 1.7828). 
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图 3.24 ”一 个 学 生 t 分 布 的 尾部 ( 阴影 ) 区 域 










































































TE R 输出 中 , 如 果 显 著 性 水 平 为 0.05,， 那么 原 假设 将 不 会 被 否定 ， 因 为 幅度 为 1.7828 REJ 
的 了 值 只 可 能 在 大 于 0.05 的 概率 下 发 生 。 然 而 ,如 果 显 车 性 水 HUE p f 被 选 为 0.10 ,而 不 是 0.05, 
那么 原 假 设 将 被 否定 。 一 般 情况 下 ,，P 值 代表 的 是 一 个 抽样 结果 导致 原 假设 成 立 的 概率 。 
FAE t 检验 中 一 个 关键 的 假设 是 群体 方差 相等 。 在 前 面 的 示例 中 ，t.test0 函数 调用 设 定 
var.equal=TRUE 来 假定 方差 相等 。 如 果 这 个 假设 是 不 合适 的 ， 那 么 应 该 使 用 Welch t 检验 。 






















































































cT 












































































































































































































































































































































3.3 ”用 于 评估 的 统计 方法 





2. Welch t TS uy 
检测 群体 均值 差异 时 ， 如 果 学 后 7 检验 的 群体 方差 相等 假设 不 成 立 , 则 可 以 基于 等 式 3.2 中 
H9 T fF] Welch t 检验 [14]。 


































































































































































































[LIGA 9 


=k 
T vetch = — Z ( 3.2 ) 
\ n n, 
LHX: 、2 呈 和 挛 分 别 对 应 第 i 次 抽样 均值 、 抽 样 方差 和 抽样 大 小 。 注 意 ，Welch t 检验 对 









































每 个 群体 使 用 样本 方差 ( 8? )， 而 不 是 样本 方差 。 
在 Welch 检验 中 ， 假 设 两 个 群体 的 随机 样本 具有 相同 均值 ， 那 么 T 的 分 布 近似 为 了 分布。 
下 面 的 R 代码 用 于 执行 Welch t 检验 ， 其 使 用 的 数据 集 与 和 前 面 学 生 ; 检验 例子 相同 。 


t.test(x, y, var.equal-FALSE) # run the Welch's t-test 
Welch Two Sample t-test 
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data: x and y 
t = -1.6596, df = 15.118, p-value = 0.1176 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-6.546629 0.812663 
sample estimates: 
mean of x mean of y 
102.2136 105.0806 




































































































































































































































































在 这 个 Welch t 检验 的 例子 中 ,p EN 0.1176, 大 于 学 生 1 检 验 示例 中 观测 到 的 p {EL 0.08547. 
在 这 种 情况 下 ， 原 假设 将 不 会 在 0.10 或 0.05 显著 性 水 平 上 被 否定 。 

得 注意 的 是 ，Welch t 检验 中 自由 度 的 计算 不 如 在 学 生 :检验 中 那么 简单 。 事 实 上 ，Welch 
t 检验 中 自由 度 的 计算 经 常会 得 出 一 个 非 整数 值 ， 就 像 这 个 例子 。 等 式 3.3 定义 了 Welch t 检验 




















的 自由 度 。 














(3.3 ) 



































在 学 生 检验 和 welch t 检验 这 两 个 例子 中 ，R 的 输出 都 提供 了 95% 的 均值 差异 的 置信 区 间 
( confidence interval )。 在 这 两 个 例子 中 ,置信 区 间 都 跨越 了 零 。 无 论 假 设 检验 的 结果 如 何 ， 置 
区 间 提 供 了 群体 均值 差异 的 区 间 预 测 ， 不 仅仅 是 一 个 点 估计 。 

置信 区 间 是 基于 抽样 数据 的 对 群体 参数 或 特性 的 区 间 估 计 。 置 信 区 间 被 用 来 说 明 点 估计 
的 不 确定 性 。 如 果 * 是 某 个 未 知 群体 均值 /的 估计 ， 置 信 区 域 可 以 让 我 们 知道 xz 距离 未 知 上 


有 多 近 。 例 如 ，95 多 的 群体 均值 的 置信 区 域 横 跨 原 假设 成 立 的 情况 ， 但 未 知 95% 的 时 间 均 值 。 
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检验 中 的 
以 将 
对 称 于 
法 来 检测 两 个 群 
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3.25 ” 横 跨 未 知 


置信 


KX TAL 














3.25 为 例 , 假定 置信 
时 ,假如 
取 100 个 不 同和 


第 3 章 使 用 R 进行 基本 数据 分 析 



































又 域 是 95%。 当 在 一 个 已 
























































F n 个 观测 值 的 估算 值 为 









































x, JI 





, 知 标准 方差 为 c 的 正 态 分 布 中 估算 
xis] x 22 会 有 95% 的 概率 横路 未 知 








个 未 An 
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样 ， 计 算 95% TSIE 


的 置信 
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的 群体 均值 /的 9596 4e DX [8] 





在 3.3.6 节 ANOVA 部 分 继续 讨 i 
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Vn 
区 间 ， 则 100 个 置信 


到 假设 检验 











区 间 中 有 95 个 会 横 跨 
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的 讨论 , 学 生 上 检验 和 Welch t 





























相关 的 群体 属性 满足 
































33fÉ 


个 关键 假设 
四 转换 为 近似 正 态 分 布 
ER 但 是 ， e 


ACE BI AA 
的 数 





























。 例 如 




















E 态 分 布 。 对 于 非 
， 对 数据 取 对 数 经 常 能 将 倾斜 的 数据 转换 成 至 少 


FE 态 分 布 的 数据 ， 有 了 时 可 能 5 





























无 效 ， 


那么 


















































体 分 布 是 否 不 同 o 





3.3.3 Wilcoxon 秩 和 检验 





t 检验 代表 一 种 参数 测试 (parametric test ), 























民利 


( nonparametric 








为 N= ni* n3, Wilcoxon 检验 的 
一 个 大 的 群 
非 在 第 N Mo d 





Ji 





a 














分 布 。 


E 体 不 能 被 假定 为 正 态 分 布 或 
test), Wilcoxon 秩 和 检验 [15] 是 
个 群体 是 同 分 布 的， 一 般 会 认为 任何 


HLH 


EXC 
































] 户 还 可 以 使 





| Wilcoxon 秩 和 检验 之 类 的 方 

























































































在 对 观测 

















9 进行 排序 时 ， 人 们 不 会 期 望 来 
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3.3 ”用 于 评估 的 统计 方法 






































在 对 所 有 观测 值 排序 后 , 对 至 少 一 个 群体 样本 的 观测 值 的 次 序 进行 求 和 和。 如 果 pop1 的 分 布 
到 了 popl 分 布 的 右 侧 ， 那 么 popl 抽样 对 应 的 秩 和 应 该 大 于 pop2 抽样 对 应 的 秩 和 。Wilcoxon 
秩 和 检验 能 确定 观测 值 秩 和 的 显著 性 。 下 面 的 R 代码 将 会 对 之 前 的 t 检验 中 使 用 的 数据 集 进 行 
Wilcoxon 秩 和 检验 。 


wilcox.test (x, y, conf.int = TRUE) 









































































































































































































































Wilcoxon rank sum test 


data: x and y 
W = 55, p-value = 0.04903 
alternative hypothesis: true location shift is not equal to 0 
95 percent confidence interval: 
-6.2596774 -0.1240618 
sample estimates: 
difference in location 
-3.417658 


wilcox.test() EA SOS GU ELUET TIEFE, WEAN RIDERA, ZA E 4 
本 分 布 相同 时 能 观察 到 的 这 种 幅度 的 秩 和 的 概率 。 在 这 个 例子 中 ， 概 率 是 由 p 值 0.04903 给 出 
的 。 因 此 ， 原 假设 将 在 0.05 显著 性 水 平 被 否定 。 读 者 可 能 注意 到 了 ， 就 本 节 给 出 的 例子 来 看 ， 
一 种 假设 检验 明显 比 男 一 种 检验 方法 更 好 。 
ALY Wilcoxon 检验 不 对 群体 分 布 进行 任何 假设 ， 因 此 通常 认为 它 比 1 检验 更 加 健壮 。 换 句 
话说 ，Wilcoxon 检验 中 有 更 少 的 可 能 被 违反 的 假设 。 然 而 ， 当 能 合理 地 假设 数据 满足 正 态 分 布 
时 ， 学 生 t 检 验 或 者 Welcht 检验 都 是 合适 的 假设 检验 。 




























































































































































































































































































































































































































































































3.3.4 1 型 和 || 型 错误 


假设 检验 可 能 导致 两 种 类 型 的 错误 ， 取 决 于 测试 是 否 接 受 或 否定 原 假设 。 这 两 种 错误 称 为 
I 型 和 二 型 错误 。 

e 工 型 错误 是 指 当 原 假设 成 立时 ， 否 定 原 假 设 。I 型 错误 概率 用 希腊 字母 w 表 示 。 

e 开 型 错误 是 指 在 原 假设 不 成 立时 ， 接 受 原 假设 。I 型 错误 概率 用 硕 腊 字母 6 表示 。 
入 设 检验 的 4 种 可 能 状态 ， 其 中 包括 两 种 错误 类 型 。 

















































































































































































































































































































K 3.6 SIH T fF 
表 3.6 1 型 和 1| 型 错误 
Ho 为 TRUE Ho 为 FALSE 
Ho 被 接受 正确 的 结果 I 型 错误 
Ho 被 否定 I 型 错误 正确 的 结 












































在 讨论 学 生 t 检 验 时 提 到 ,显著 性 水 平等 同 于 I 型 错误 。 对 于 一 个 显 车 性 水 平 (如 a=0.05 ) 来 
说 ， 如 果 原 假设 (ja=pw ) 成 立 ， 那 么 基于 抽样 数据 观测 到 的 了 值 有 5% 的 几率 大 到 足以 否定 原 假 
设 。 通 过 选择 适当 的 显 普 性 水 平 ， 犯 1 型 错误 的 概率 在 收集 或 分 析 任 何 数 据 之 前 就 可 以 被 确定 。 
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第 3 章 使 用 R 进行 基本 数据 分 析 







































































犯 工 型 错误 的 概率 很 难 被 确定 。 如 果 两 个 群体 均值 不 相等 ， 犯 工 型 错误 的 概率 将 取决 于 均 
到 底 相 差 多 远 。 为 了 将 犯 工 型 错误 的 概率 降低 到 一 个 合理 的 水 平 ， 通 常 需要 增加 抽样 大 小 。 
这 个 主题 将 在 下 一 节 讨 论 。 
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3.3.5 ”功效 和 抽样 大 小 


检验 的 功效 (power of a test) 是 指正 确 地 拒绝 原 假 设 的 概率 。 它 可 以 表示 为 1-p， 其 中 
E IL 型 错误 的 概率 。 因 为 检验 功效 随 着 抽样 大 小 增加 而 增加 ， 因 此 功效 被 用 于 确定 必要 的 
样 大 小 。 在 均值 差异 中 ,假设 检验 的 功效 取决 于 群体 均值 的 真正 差异 。 换 句 话 说 ， 对 于 一 个 
司 定 的 显著 性 水 平 ， 检 测 到 更 小 的 均值 差异 需要 一 个 更 大 的 抽样 空间 。 一 般 来 说 ， 差 异 幅 度 
WAAR (effect size )。 当 抽样 空间 变 大 后 ， 就 更 加 容易 检测 到 一 个 给 定 的 效应 量 5， 如 


&| 3.26 所 示 。 
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3.26 更 大 的 抽样 空间 可 以 更 好 地 识别 一 个 固定 的 效应 量 


当 抽 样 eae 几乎 任何 效应 量 在 统计 上 都 会 相当 明显 。 然 而 ， 一 个 非常 小 的 效应 
量 在 实际 中 可 能 是 无 用 的 。 重 要 的 是 要 针对 手头 的 问题 考虑 一 个 适当 的 效应 量 
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3.3.6 ANOVA 


前 面 的 章节 中 提 到 ， 假 设 检验 善于 分 析 两 个 群体 之 间 的 均值 。 但 是 ， 如 果 有 两 个 以 上 
的 群体 存在 呢 9 下 面 我 们 研究 一 个 案例 ， 来 检验 营养 和 锻炼 对 60 名 18 岁 至 50 岁 的 候选 人 
的 影响 。 候 选 人 被 随机 分 为 6 组 ,每 组 都 使 用 不 同 的 减肥 策略 ， 目 的 是 为 了 确认 哪个 策略 最 





























































































































































































































































































































有 效 。 
e 第 1 组 : 只 吃 垃 圾 食品 。 
e 第 2 组 : 只 吃 健康 食品 。 
e 第 3 组 : 只 吃 垃圾 食品 ， 并 且 每 隔 1 天 做 有 氧 运动 。 




















3.3 ”用 于 评估 的 统计 方法 

























































































































































































































































































































































































































































































e 第 4 组 : 只 吃 健康 食品 ， 每 隔 1 天 做 有 和 氧 运 动 。 

e 第 5 组 : 只 吃 垃圾 食品 ， 每 阳 1 天 同时 做 有 氧 和 力量 训练 。 

e 第 6 组 : 只 吃 健康 食品 ， 每 隔 1 天 同时 做 有 氧 和 力量 训练 。 

AXE 1 检验 可 以 应 用 到 每 组 减肥 策略 中 。 在 这 个 例子 中 ， 可 以 将 第 1 组 的 减 重 情况 分 别 与 
第 2、3、4、5 和 6 组 进行 比较 。 类 似 地 ， 将 第 2 组 与 后 面 4 组 进行 比较 。 因 此 ， 一 共 将 执行 
15 组 7 检验。 

然而 ,出 于 两 种 原因 ， 对 多 个 群体 的 多 重 1 检测 可 能 效果 不 好 。 第 一 ， 因 为 1 检测 的 次 数 会 
随 着 群体 数量 的 增加 而 增加 ， 这 将 导致 采用 多 重 t 检测 的 分 析 变 得 更 难 认 知 。 第 二 ， 随 着 分 析 
次 数 的 增加 ， 在 分 析 中 犯 1 型 错误 的 概率 将 大 大 增加 。 






























































方差 分 析 (Analysis of Variance, ANOVA ) 是 为 解决 这 些 问题 而 设计 的 。ANOVA 是 一 种 沁 
化 的 对 两 个 群体 均值 差异 的 假设 检验 。ANOVA 测试 是 否 有 任何 群体 的 均值 不 同 于 其 他 群体 的 
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均值 。ANOVA 的 原 假设 是 所 有 群体 的 均值 相等 ， 而 备 择 假设 则 是 至 少 一 对 群体 均值 不 相等 。 
也 就 是 说 ， 

€ Ho: u-p-...--u, 

@ H,: 至 少 有 一 对 (ij) f£ Hi Lj 


















































如 同 3.3.2 节 ， 这 里 每 个 群体 被 假定 满足 具有 相同 方差 的 正 态 分 布 。 

ANOVA 要 做 的 第 一 种 计算 是 检验 统计 。 从 本 质 上 来 说 ， 我 们 的 目标 是 测试 群体 是 否 形成 
若干 紧密 的 聚 类 。 
假设 群体 的 个 数 为 k， 总 数 为 V 的 样本 被 随机 分 成 x 组 , 第 i 组 中 样本 的 数量 表示 为 n;， 第 
i 组 的 均值 表示 为 X; ， 其 中 ie [1,K] 。 所 有 样本 的 均值 表示 为 Xo 。 

组 间 均 值 平方 和 (between-groups mean sum of squares ) $s 是 组 间 方 差 ( between-group 
variance ) 的 一 个 估 测 值 。 它 可 以 衡量 群体 均值 如 何 随 总 均值 ( grand mean， 即 所 有 群体 的 均值 ) 
变化 。 S; 由 下 面 的 公式 3.4 表示 。 
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14^ v v 
s? =e Xo) (3.4) 
TA i=] 























组 内 均值 平方 和 (within-group mean sum of squares ) S% 是 组 内 方差 ( within-group variance ) 
的 一 个 估 测 值 。 它 可 以 量化 值 在 群体 内 的 分 布 。 Sy, 由 下 面 的 公式 3.5 表示 。 




















































































































ni 


LRT (3.5) 


AUR S; EG Sy KEZ, PARERE E HIS o 
F 检验 统计 被 定义 为 组 间 均 人 平方 和 与 组 内 均值 平方 和 的 比值 ， 由 下 面 的 公式 3.6 表示 。 
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(3.6) 


第 3 章 使 用 R 进行 基本 数据 分 析 












































ANOVA 中 的 FE 检验 统计 被 用 于 衡量 每 个 组 内 的 均值 与 变异 数 的 不 同 。 观 测 到 的 F 检验 统 
计 越 大 ， 均 值 间 的 差异 也 就 越 大 ( 而 且 不 是 偶然 的 )。F 检验 统计 是 用 来 检验 这 样 一 个 假设 ， 
即 所 观测 到 的 效果 不 是 出 于 偶然 ， 也 就 是 说 ， 均 值 相互 之 间 明 显 不 同 。 
戎 虑 这 样 一 个 例子 ， 访 问 某 零 售 网 站 的 每 位 客户 都 可 能 获得 两 种 促销 优惠 的 一 种 ， 也 可 能 
任何 优惠 者 没有。 这样 设计 的 目的 是 为 了 检测 促销 优惠 是 否 有 效 。ANOVA 可 以 被 用 于 这 个 例 
了 ， 其 原 假设 是 两 种 促销 优惠 都 无 效 。 下 面 的 代码 根据 三 种 不 同 报价 方案 随机 生成 500 次 的 采 
购 及 其 规模 。 


offers «- sample(c("offerl", "offer2", "nopromo"), size-500, replace-T) 
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# Simulated 500 observations of purchase sizes on the 3 offer options 
purchasesize «- ifelse(offers--"offerl", rnorm(500, mean-80, sd-30), 
ifelse(offers--"offer2", rnorm(500, mean-85, sd-30), 
rnorm(500, mean-40, sd-30))) 


# create a data frame of offer option and purchase size 
offertest«- data.frame(offer-as.factor(offers), 
purchase amt-purchasesize) 


数据 帧 Offertest 的 汇总 显示 , 500 次 采购 中 offerl 7j 170 次 , offer2 为 161 次 , nopromo (不 


促销 ) 为 169 次 。 还 显示 了 每 一 各 方案 的 采购 规模 ( purchase, amt ) 的 范围 。 

































































bla # display a summary of offertest where offer="offerl" 
summary (offertest [offertest$offer=="offerl", ]) 


offer purchase_amt 
nopromo: 0 Min. : 4.521 
offerl :170 lst Qu. : 58.158 
offer2 : 0 Median : 76.944 
Mean 181,936 
3rd Qu. : 104.959 
Max. : 180.507 


# display a summary of offertest where offer-"offer2" 
summary (offertest[offertest$offer--"offer2",]) 
offer purchase amt 


nopromo: 0 Min. : 14.04 
offerl : 0 lst Qu. : 69.46 
offer2 :161 Median $90.20 
Mean s 89.09 
3rd Qu. :107.48 
Max. :154.33 


# display a summary of offertest where offer="nopromo" 
summary (offertest [offertest$offer=="nopromo", ]) 
offer purchase amt 


3.3 ”用 于 评估 的 统计 方法 





nopromo:169 Min. 027.00 
offerl : 0 ist Qu. : 20.22 
offer2 : 0 Median : 42.44 
Mean : 40.97 
ard Qu. 2 58.95 
Max. :164.04 





aovOPÉPBOSE RIAU AIR TT RAE TIT 2523 BT o 


bla# fit ANOVA test 
model <- aov(purchase amt ~ offers, data=offertest) 


summary0 函 数 显示 模型 的 汇总 。 报 价 的 自由 度 为 2， 其 对 应 公式 3.4 中 的 分 母 1 RÆK 
自由 度 为 497， 其 对 应 公式 3.5 的 分 母 n-k。 

















































































































summary (model) 

Df Sum Sq Mean Sq F value Pr (>F) 
offers 2 225222 112611 130.6 «2e-16 *** 
Residuals 497 428470 862 


Signif..codes; Qw**':0.001.. Tee! OO te 90705. 1 "0. T LTT 
输出 还 包括 88 (112, 611), S, (862). F 检验 统计 (130.6) VAR P di (<2e-16). F 检 
验 统计 远大 于 1，P 值 远 小 于 1。 因 此， 均值 相等 的 原 假设 应 该 被 否定 。 
但 是 ， 结 果 并 没有 表明 offerl 和 offer2 是 否 不 同 ， 这 需要 额外 的 检验 。TukeyHSDO 函 数 对 
所 有 均值 差异 的 成 对 检验 使 用 了 Tukey 诚实 显著 差异 (Honest Significant Difference, HSD ) 法 。 
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TukeyHSD (model) 





Tukey multiple comparisons of means 
95% family-wise confidence level 


Fit: aov(formula = purchase amt ~ offers, data = offertest) 


Soffers 

diff lwr upr p adj 
offerl-nopromo 40.961437 33.4638483 48.45903 0.0000000 
offer2-nopromo 48.120286 40.5189446 55.72163 0.0000000 
offer2-offerl 7.158849 -0.4315769 14.74928 0.0692895 


结果 包括 三 种 报价 方案 的 成 对 比较 的 p 值 offerl-nopromo 和 offer-nopromo 的 p 值 等 于 0， 
小 于 显著 性 水 平 0.05。 这 表明 offerl 和 offer2 明显 不 同 于 nopromo。offer2 对 比 offerl 的 P 值 为 
0.0692895， 大 于 显著 性 水 平 0.05。 这 表明 offer2 与 offerl 之 间 没 有 显著 的 不 同 。 
由 于 只 执行 了 一 个 影响 因素 (促销 报价 )， 因 此 这 里 的 方差 分 析 被 称 为 单 向 方差 分 析 。 如 果 
标 是 分 析 两 个 因素 ,比如 促销 因素 和 时 间 因 素 , 那 就 是 一 个 双向 方差 分 析 [16]。 如 果 目 标 是 为 
个 结果 变量 建 模 ， 那 么 就 需要 使 用 多 元 方差 分 析 (或 MANOVA )。 










































































































































































































































































































































































































































































3.4 Ri 


第 3 章 使 用 R 进行 基本 数据 分 析 











R 是 一 种 














R GUI、 数据 Vo 1 
数据 分 析 ， 包 











本 章 介绍 了 





于 数据 探索 、 分 析 和 可 视 化 的 流行 编程 语言 。 作 为 R 语言 上 












































属性 和 数据 类 型 以 及 描述 性 统计 。 本 音 还 讨论 了 妈 















































Welch t 检验 穿插 在 两 个 假设 检验 示例 中 介绍 ， 用 于 测试 均值 的 差异 。 本 章 还 介绍 了 
置信 区 闻 、Wilcoxon 秩 和 检验 、I 型 和 了 工 错 误 、 效 应 量 和 方差 
















































































中 何 使 
1 发现 脏 数据 、 可 视 化 一 个 或 多 个 变量 ， 以 及 为 不 同 的 受众 定 匀 























本 的 统计 方法 。 在 本 章 中 介绍 的 第 一 个 统计 方法 是 假设 检验 。 学 4 



































































































































法 和 工具 , 包 




















3.5 练习 





1. 下 述 R 代码 中 fdata 包含 多 少 级 呢 ? 


data = C(1,2,2,3,1,2,9,3,1,2,3,9,1) 


fdata - 


2. v1 All v2 这 两 个 矢量 都 是 由 下 列 R 代码 创建 : 
vl < 1:5 
v2 <— 6:2 


factor (data) 






























































cbind(v1,v2) 和 rbind(v1,v2) 的 结果 是 什么 呢 ? 











. aui) 











. au) 









































BS R 命令 可 以 从 数据 集 删 除 null (AE? 
BS RR 命令 可 以 安装 一 个 额外 的 R 软件 包 呢 ? 
BS R 函数 可 以 将 向 量 编码 为 类 别 呢 ? 
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5. jii 
6 使 用 的 rug 图 是 什么 样 的 ? 
- 
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在 线 零 售 商 要 研究 顾客 的 购买 行为 。 图 3.27 显示 了 客户 购买 规模 〈 以 美元 计 ) 的 


















































密度 图 。 请 给 





























合理 建议 以 加 强 检 测 ， 避 免 错 过 更 多 细 玉 。 
图 将 数据 划分 为 几 个 部 分 呢 ? 这 些 部 分 是 什么 ? 
图 3.18 ， 哪 些 属性 是 相关 的 ? 如 何 描述 它们 之 间 的 关系 ? 

























































































可 以 用 来 拟 合 非 线性 的 数据 ? 


























11. any 


BLAIS) 


12. 什么 是 I 型 
13. 假设 大 家 访问 一 家 零售 网 站 ， 可 能 得 到 一 个 促销 优惠 信息 ， 也 可 能 没有 优 ; 
























































图 有 倾斜 ， 且 所 有 数据 都 是 正 的 ， 哪 种 数学 技术 可 
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THAT FAE UR? 一 种 错误 是 否 总 是 比 另 一 和 






















































































们 想 研 究 














优惠 的 作用 。 你 会 推荐 哪 种 统计 方法 来 分 析 这 个 案例 
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3.27 ”购买 规模 的 密度 图 














14.， 你 正在 分 析 两 种 正 态 分 布 的 群体 ， 你 的 原 假设 是 第 一 群体 的 均值 ju 等 于 第 二 群体 的 均 
15。 假设 显著 水 平 设 定 为 0.05。 如 果 观 察 到 的 P 值 为 4.33e-05， 就 原 假设 来 说 ， 你 的 决定 是 
什么 ? 
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基于 第 3 章 对 R 的 介绍 , 第 4 章 到 第 9 章 将 介绍 几 种 常用 的 分 析 方 法 ， 这 些 方法 可 以 
于 数据 分 析 生 命 周 期 的 模型 规划 ( 第 3 阶段 ) 和 执行 阶段 (第 4 阶段 )。 本 章 将 介绍 聚 
类 的 技术 和 算法 。 
















































































4.1 RAIA 


大 体 上 讲 ， 聚 类 是 指 通过 无 监督 (unsupervised ) 技术 对 相似 的 数据 对 象 进行 分 旨 

所 组 成 的 篮 是 一 组 对 象 的 集合 ， 这 些 对 象 与 同一 复 中 的 对 象 彼此 类 似 ， 与 其 他 复 中 的 对 

下 机 器 学 习 中 ， 无 监督 是 指 在 没有 标注 的 数据 中 寻找 隐 含 的 构造 信息 。 聚 类 技术 是 

对 的， 因为 数据 科学 家 不 需要 提前 标注 会 生成 的 繁 。 数 据 的 内 部 构造 描绘 了 要 分 组 的 对 

象 ， 决定 了 如 何 最 佳 地 将 对 象 分 组 。 例 如 ， 基 于 客户 的 个 人 收入 ， 依 据 任意 选择 值 可 上 
将 客户 直接 分 成 三 个 组 别 。 如 下 所 示 : 

e 收入 低 于 100,00 美元 ; 

e 收入 在 10,000 美元 到 99,999 美元 之 间 ; 

@ 收入 在 100,000 美元 及 以 上 。 

在 这 个 例子 中 ， 收 入 水 平 的 划分 是 基于 主观 上 的 易 解释 性 。 但 是 ， 这 种 分 组 方式 并 没有 

显示 出 每 个 组 内 客户 有 天 然 的 类 同性 。 换 名 话说 ， 并 没有 内 在 理由 说 明 赚 90000 美元 的 客户 

和 赚 110000 美元 的 客户 有 什么 不 同 。 随 着 将 与 客 量 做 为 附加 的 相似 性 维度 ， 

寻找 有 意义 的 分 组 会 变 得 更 加 复杂 。 比 如 ， di 用 将 年 龄 、 受 教育 年 限 、 家 庭 规模 和 每 年 采购 

支出 等 变量 与 个 人 收入 变量 一 起 考虑 ， 那 么 应 该 怎样 对 客户 进行 分 组 ? 通过 聚 类 分 析 可 以 帮 








































































































































































































































































































5t 
GE Y 
Ug W on 






















































































































































































































































































































































































Y. 
XL 
NE 
ct 
R 
N 
7i 






















































































































































































































































































Neue Metis HERPES A TRU E. RRA ET FA, RATT EAR SBE 
来 查找 对 象 之 间 的 相似 性 ， 并 对 相似 的 对 象 进行 从 类 形成 秘 。 肾 类 技术 经 常用 于 市 场 营 销 、 经 
济 学 和 自然 科学 的 多 个 分 文 。k 均值 是 一 种 流行 的 聚 类 技术 。 



















































































































































































4.2 k 均 值 聚 类 


给 定 一 组 带 有 n 个 可 衡量 属性 的 对 象 和 一 个 k 值 ，k 均值 [1] 分 析 技 术 基 于 对 象 与 簇 中 心 的 
临近 度 将 对 象 分 成 k 个 得 。 往 中 心 为 每 个 自 中 对 象 的 n 维 属性 向 量 的 算术 平均 值 。 本 节 会 介绍 
k 均值 算法 以 及 如 何 最 好 地 将 其 应 用 到 一 些 使 用 案例 。 图 4.1 显示 了 三 个 带 有 两 个 属性 的 对 象 的 
禾 。 数 据 集中 的 每 个 对 象 由 一 个 彩色 小 点 表示 ， 其 颜色 与 所 在 复 的 均值 ， 即 最 近 的 大 点 的 颜色 
相同 。 




































































































































































































































































































































































4.2 均值 聚 类 
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E41 4 k=3 时 可 能 的 k 均值 聚 类 得 











4.2.1 使 用 案例 

FRAIL VEDA A. RRR IE A, AT ee Nik, VARY 
个 组 进行 分 类 。 第 7 音 将 详细 讨论 分 类 。 聚 类 主要 用 于 探索 发 现 数据 中 隐 含 的 构造 ， 可 能 在 
深入 的 分 析 或 决策 过 程 的 前 奏 。k 均值 聚 类 的 特定 应 用 包括 图 像 处 理 、 医 疗 和 客户 细 分 。 
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图 像 处 理 

视频 是 一 种 典型 的 体 量 日 益 增 长 的 非 结构 化 数据 。 在 每 个 视频 帧 中 ,，k 均值 分 析 可 以 用 来 
识别 视频 中 的 对 象 。 对 于 每 个 帧 ， 需 要 确定 哪些 像素 是 最 相似 的 。 像 素 的 属性 包括 亮度 、 颜 色 、 
WEL, AK X 坐标 和 YY 侍 标 。 例如， 在 安全 视频 图 像 中 ,会 检查 连续 的 巅 ， 以 识别 察 类 的 任何 
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改变 。 这 些 新 识别 的 聚 类 可 能 表示 对 设施 的 未 经 授权 的 访问 。 

医疗 

病人 的 身体 指标 ， 比 如 年 龄 、 号 高 、 体 重 、 收 缩 及 舒张 压 、 类 问 醇 水 平 ， 可 以 识别 自然 发 
生 的 察 类 簇 。 这 些 簇 可 用 于 定位 需要 特定 预防 措施 或 参与 临床 试验 的 个 体 。 一 般 情 况 下 ， 紧 类 
对 于 在 生物 学 领域 中 植物 和 动物 的 分 类 ， 以 及 在 人 类 遗传 学 领域 都 非常 有 用 。 






































客户 细 分 
市 场 营 销 和 销售 团队 使 用 k 均值 聚 类 来 更 好 地 识别 具有 相似 行为 和 消费 模式 的 用 户 。 例 如 ， 
一 个 移动 电话 服务 商 可 以 查看 以 下 的 用 户 属性 : 每 月 账单 、 短 信 数 量 、 使 用 的 数据 量 、 各 种 
常 时 间 段 消耗 的 电话 分 钟 数 以 及 客户 年 限 。 移 动 电话 服务 商 可 以 根据 聚 类 结果 考虑 相应 策略 来 
增加 销售 量 或 者 减低 客户 流失 率 (所谓 流失 率 ， 即 与 特定 公司 结束 合同 关系 的 客户 比例 )。 
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高 级 分 析 理 论 与 方法 : 聚 类 


4.2.2 方法 概述 
为 了 阐述 从 M. 个 拥有 n 个 属性 的 对 象 中 找到 k 个 聚 类 徐 的 方法 ， 我 们 来 看 一 个 二 维 示 


看 一 个 二 维 示 例 
(n=2 ) 在 二 维 场景 中 可 视 化 k 均值 方法 变 得 非常 容易 。 本 章 的 后 面部 分 将 从 二 维 场景 扩展 到 处 
理 任意 数量 的 属性 的 情况 。 
由 于 本 示例 中 每 个 对 象 拥 有 两 个 个 属性 ， 可 以 将 每 个 对 象 看 作 一 个 点 (zy )， 其 中 xx 和 y 
表示 两 个 属性 , i= 1 2 … M。 对 于 一 个 由 m 个 点 (mM ) 组 成 的 复 ， 复 均值 相对 应 的 点 称 为 
质心 Ceentroid )。 在 数学 中 ， 一 个 质心 是 指 对 应 于 对 象 质量 中 心 的 点 。 
下 面 4 个 步骤 介绍 了 均值 算法 如 何 找到 个 簇 。 
1， 选 定 K 值 ， 以 及 k 个 质心 的 初始 猜测 值 。 
在 这 个 例子 中 ，k=3 ， 初 始 质心 以 红 点 、 绿 点 和 蓝 点 表示 ， 如 图 4.2 所 示 。 
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图 4.2 ”质心 的 初始 起 点 











2 计算 从 每 个 数据 点 Ce 到 每 个 质心 的 距离 ， 然 后 每 个 点 分 
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0 给 最 近 的 质心 。 所 有 分 配 


























































































































给 同一 个 质心 的 点 组 成 一 个 篮 。 一 共 形 成 k 个 簇 。 
在 箭 卡 尔 平面 中 , 任何 两 个 点 CcuyD 和 Co) 之 间 的 距离 4， 通常 使 用 公式 4.1 中 的 欧 几 里 得 
距离 来 测量 。 
d — (x, x) -- (y — XY. (4.1) 




















在 图 4.3 中 ， 最 靠近 某 个 质心 的 点 的 颜色 与 该 质心 的 颜 
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4.3 ”被 关联 到 最 近 质 心 的 点 

















3， 计 算 步 又 2 中 新 形成 定义 的 每 一 个 簇 的 质量 中 心 ， 即 质心。 
在 图 4.4 中 ， 步 又 3 中 计算 出 的 新 质心 使 用 的 颜色 会 相对 浅 一 些 。 在 二 维 平面 中 ， 使 用 公 
式 4.2 RHR MRP m 个 点 的 质心 Gy 
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(4.2) 


























AIE, (Xeye) EMBER m 个 点 坐标 的 算术 平均 值 的 有 请 
个 徐 都 需要 计算 质心 。 
4. 重复 步骤 2 和 步骤 3 的 操作 ， 直 到 算法 收敛 。 
a， 将 每 个 数据 点 分 配给 最 近 的 步骤 3 中 计算 出 的 质心 ， 以 更 新 K Se 
b.， 计算 每 个 更 新 的 簇 的 质心 。 
c， 重 复 上 述 步骤 直到 算法 生成 最 终 的 答案 。 
当 计 算出 的 质心 不 改变 ， 或 者 质心 和 所 分 配 的 点 在 两 个 相 邻 迭代 间 来 回 振荡 时 ， 就 达到 收 
敛 了 。 当 有 一 个 或 多 个 点 到 计算 出 的 质心 距离 相等 时 ， 就 可 能 发 生 后 面 这 种 情况 。 
为 了 将 前 面 的 算法 扩展 到 nm 维 , 假设 有 M 个 对 象 , 其 中 每 个 对 象 有 n 个 属性 值 (pi1,p,.…p )。 
WRIA Cpapas-pa ) 来 描述 ,i= 12,7 M。 换 句 话说 ,可 以 想象 有 一 个 M 行 n 列 的 矩阵 ， 其 
中 M 行 对 应 M ANR, n 列 对 应 每 个 对 象 的 n 个 属性 值 。 在 n=1 的 情况 下 ， 下 面 的 公式 用 于 
计算 质心 的 位 置 和 数据 点 到 它 的 距离 。 
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Hi (ordered pair )。 在 该 步骤 中 ， 对 kk 
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图 4.4 iH ESTBEUD 























对 于 一 个 给 定 的 点 Di- ( Pit Pi2,--Pin ) 和 一 个 质心 q=(q1,92,..4n) ; Di 和 q 之 间 的 距离 d 可 以 J 

















公式 4.3 来 表示 。 
d(p;.q) — >i(py -4q)) (4.3) 
对 于 一 个 由 m 个 点 构成 的 徐 的 质心 9=(piwpp,…pin)， 其 计算 方式 如 公式 4.4 所 示 。 


(qi,q2,.…4,) = om p» 228p (44) 


m m 





























4.2.3 ”确定 聚 类 簇 的 数量 

使 用 前 面 的 聚 类 算法 可 以 找 出 给 定数 据 集中 的 AiE, BÆ k 的 值 应 该 怎样 选择 呢 ?kk AE 
可 以 根据 合理 猜测 或 者 一 些 预定 义 的 要 求 来 选择 。 但 是 ， 在 解释 数据 的 构造 时 ， 最 好 知道 k R 
类 对 比 k-1 或 者 kel 聚 类 到 底 是 好 多 少 还 是 坏 多 少 。 接 下 来 ,我们 将 讲解 一 个 使 用 内 平方 和 





















































































































































































































































































































































































































































































































































( Within Sum of Square, WSS ) 的 启发 式 算法 ， 来 确定 一 个 合理 的 最 优 K 值 。 使 用 公式 4.3 给 出 
的 距离 函数 ，WSS 的 定义 如 公式 4.5 中 所 示 。 
M M n 
WSS — 5 ^d(p,q?Y =) > (p,-aPy (45) 
i=l il j=l 
换 句 话说 ，WSS 是 所 有 数据 点 与 其 最 近 质 心 之 间距 离 的 平方 和 。%9 表 示 与 第 i 个 数据 点 最 
近 的 质心 。 如 果 这 些 点 相对 靠近 它们 各 自 的 质心 ,那么 WSS 将 相对 较 小 。 因 此 ， 如果 k+ RK 
没有 显著 降低 Kk 聚 类 中 的 WSS 值 ， 那 么 增加 一 个 族 可 能 意义 不 大 。 









































4.2 均值 聚 类 


使 用 R 进行 k 均值 分 析 
为 了 解释 如 何 使 用 WSS 来 确定 聚 类 簇 的 适当 数量 ， 下 面 的 示例 使 用 R 来 进行 k 均 
我 们 将 根据 学 生 在 三 门 科 目 ( 英语 、 数 学 和 科学 ) 的 成 绩 ， 对 620 名 高 中 生 进 行 分 组 。 这 些 成 
绩 是 他 们 整个 高 中 生涯 的 平均 分 , 范围 为 0~100。 下 面 的 R 代码 包含 了 必要 的 R 库 , 并 且 导 入 
了 包含 成 绩 信 息 的 CSV 文件 。 
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library (plyr) 
library (ggplot2) 
library (cluster) 
library (lattice) 
library (graphics) 
library (grid) 
library (gridExtra) 








import the student grades 
grade input = as.data.frame(read.csv("c:/data/grades km input.csv")) 


下 面 的 R 代码 对 成 绩 进 行 了 格式 化 处 理 。 该 数据 文件 一 共 包 含 四 列 ， 第 一 列 包 含 每 个 学 4 
的 标识 ID) 5, 其 他 三 列 包含 三 门 课程 的 分 数 。 因 为 学 生 ID 没有 在 肾 类 分 析 中 用 到 ， 它 被 
除 在 均值 输入 矩阵 kmdata 之 外 。 


kmdata orig = as.matrix(grade input[,c("Student","English","Math","Science")]) 
kmdata«- kmdata orig[,2:4] 
kmdata[1:10,] 
















































































ar dH 










































































Il 














English Math Science 





Ly 99, 796^ 97 
2, 99. -96. :97 
3, 98 97 97 
4, 95 100 95 
5, 95 96 96 
6, 96 97 96 
T, 100 96 97 
8, 951. <98> 98. 
9, 98 96 96 
10,1] 99. 99. 95 


















































为 了 确定 k 的 适当 值 ， 我 们 使 用 K 均值 聚 类 算法 来 计算 k = 1, 2,…, 15 时 的 聚 类 结果 。 对 
于 每 个 k 值 ， 计 算 其 WSS。 如 果 增 加 一 个 簇 导致 对 数据 点 进行 了 更 好 的 划分 ， 则 对 应 的 WSS 
应 该 明显 比 没有 增加 簇 时 小 。 
PR R 代码 会 针对 质心 的 个 数 k 循环 执行 若干 次 均值 分 析 , 其 中 k 为 1 到 15。 对 于 每 个 
k， 选 项 nstart=25 用 于 指定 重复 执行 25 次 k 均值 聚 类 算法 ， 每 次 以 k 个 随机 初始 质心 开始 。 与 
每 个 k 均值 分 析 对 应 的 WSS 值 被 存储 在 wss 矢量 中 。 
























































































































































































































































































































































wss«- numeric(15) 
for (k in 1:15) wss[k] <- sum(kmeans (kmdata, centers-k,nstart-25)$withinss) 
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R 的 基本 绘制 图 功能 ， 儿 对 质心 个 数 (1 一 15 ) 来 绘制 图 形 ， 结 果 如 图 4.5 所 示 。 


plot(1:15, wss, type-"b", xlab-"Number of Clusters", ylab-"Within Sum of Squares") 
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4.5 ”学 生成 绩 数据 的 WSS 值 
























































可 以 看 到 ， 当 k 从 1 增加 到 2 时 ，WSS 大 大 降低 。WSS 另外 一 次 的 显著 降低 发 生 在 K=3 
Ay, SAT, “4 k>3 后 WSS 的 改善 是 非常 线性 的 。 因 此 ，k 均值 分 析 将 选 定 k=3。 识 别 k 的 适当 
值 的 过 程 称 为 发 现 WSS 曲线 的 “ 肘 ”。 


km = kmeans(kmdata,3, nstart-25) 
km 



























































































































































K-means clustering with 3 clusters of sizes 158, 218, 244 


Cluster means: 

English Math Science 
1 97.21519 93.37342 94.86076 
2 73.22018 64.62844 65.84862 
3 85.84426 79.68033 81.50820 


























Clustering vector: 

[T] L 1d I1 1 11112L142z2.:1111 T 1 l1 T 1 l1: 5 ay d 
12122 21 DAA 

这 六 二 四 Tcl 1: ll Te EC 
La l1 1 l1 1 

[81] 11111111111111111 Vi JE Ae Lok Ae Ads E 
i I-i $1.2. 1.1. 1.1.3 

121] de 1c 1L Xd1ddi1114zx1 1 l1 1 i 1 1 1 I i 1 
3.3 3 33. 3 3.9 3.3 

16 3° 3) 3) 37.373 SE 3 33 35535313 9:3 3 29. 3:992 
33 3 3.3::3, 3; 3:,3 

20 dd IPS ee 
3:3 3: 3: 3: 3:3) 3:3: 3 

24 ee e sc e ee e Hc 013. 03:09:03: 03:039: 03:03: 13:03: 03:53: 63:03: 03:039: 13:53: 13:73 
393-959 9-09:.99 3. 9-13 

28 3° 399° 3°93: S S 3°35 3 33 3 3 33353 3 3 .333 3333 3-9. 
3i 3:3: 31:3: 3. 3. 3.3.3 

32 SIs 














Within cluster sum of squares by cluster: 
[1] 6692.589 34806.339 22984.131 
(between SS / total SS = 76.5 £) 


Available components: 


[1] "cluster" "centers" "totss" "withinss" "tot.withinss" 
[6] "betweenss" "size" "iter" "ifault" 


变量 km 所 显示 的 内 容 如 下 所 示 : 
e FONEME; 
e 来 类 向 量 ， 它 定义 了 每 个 学 生 所 属 的 聚 类 儿 1、2 或 3; 
e AMEN 

e 上 所 有 K HERAK 















































































































































































































































































































































列 的 R 代码 验证 了 两 者 的 硝 是 等 同 的 。 


c( wss[3] , sum(km$withinss) ) 














[1] 64483.06 64483.06 





4.2 均值 聚 类 


33343959 3 3 33 
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在 确定 K TEES, KR ZONA REBUSQUE SURE, TEN 














面 的 代码 中 ，ggplot2 包 



































可 视 化 已 确定 的 学 生 徐 和 质心 。 




















#prepare the student data and clustering results for plot 
df = as.data.frame (kmdata orig[,2:4]) 

df$cluster - factor (km$cluster) 

centers-as.data.frame (km$centers) 


gl= ggplot(data-df, aes(x-English, y-Math, color=cluster 
geom point() + theme(legend.position="right") + 
geom point (data-centers, 





ting 


yt 


aes (x=English, y=Math, color-as.factor(c(1,2,3))), 

















] 户 可 以 通过 使 用 帮助 功能 了 解 如 何在 R 中 使 用 均值 聚 类 , WA k 均值 聚 类 的 相关 数据 。 
] 户 可 能 想 知道 存储 在 km 内 的 k 均值 聚 类 结果 是 否 等 同 于 在 生成 图 4.5 时 获得 的 WSS 
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Size-10, alpha-.3, show guide-FALSE) 


g2 -ggplot(data-df, aes(x-English, y-Science, color-cluster )) + 
geom point() 十 
geom point (data-centers, 
aes (x-English,y-Science, color-as.factor(c(1,2,3))), 
Size-10, alpha-.3, show guide-FALSE) 


g3 = ggplot(data-df, aes(x-Math, y=Science, color=cluster )) + 
geom point() -* 
geom point (data-centers, 
aes (x-Math,y-Science, color-as.factor(c(1,2,3))), 
Size-10, alpha-.3, show guide-FALSE) 


tmp = ggplot gtable(ggplot build(g1)) 


grid.arrange(arrangeGrob(gl + theme(legend.position-"none"), 
g2 + theme (legend.position-"none"), 
g3 + theme (legend.position="none"), 
main ="High School Student Cluster Analysis", 
ncol=1) ) 


由 此 产生 的 结果 如 图 4.6 Pra. KAERRA. ARRE, 并 通过 颜色 ( 红 
、 蓝 色 和 绿色 ) 来 表示 其 对 应 的 聚 类 复 。 总 体 来 说 ， rn 类 学 生 : 高 分 学 生 (红色 )、 
FE (绿色 )， 以 及 在 前 面 二 个 群体 之 间 的 其 他 的 ( 蓝 色 )。 该 图 还 显示 了 哪些 学 生 擅 
长 一 到 两 门 科目 ， 但 是 不 擅长 其 余 的 科目 。 
LM 
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4.2 均值 聚 类 







































































标注 已 识别 的 聚 类 答对 于 分 析 结 果 的 沟通 非常 有 用 。 在 市 场 营 销 时 , 经 常 需 要 将 一 群 客 
户 标记 为 常客 或 者 是 大 额 客户 。 当 和 企业 用 户 或 管理 人 员 沟 通 聚 类 结果 时 , 这 种 标注 非常 有 
营销 计划 时 ， 用 大 额 客户 指 代 禾 # 会 更 合适 。 

































































































































































































































































使 用 WSS 的 启发 式 方法 可 以 提供 多 个 可 能 的 k 值 做 为 参考 。 当 nd ] 来 
进一步 对 的 选择 进行 改进 的 一 种 常用 方法 是 绘制 数据 ， 以 确定 识别 出 的 聚 类 簇 之 间 是 否 界 降 
分 明 。 在 一 般 情 况 下 ， 需 要 考虑 下 面 的 问题 。 

e 聚 类 之 间 是 否 较 好 地 相互 分 离 ? 

e 是 否 存在 只 有 几 个 点 的 复 ? 

e 是否 有 靠 得 很 近 的 质心 ? 

在 第 一 种 情况 下 ， 当 n=2 时 的 理想 图 形 如 图 4.7 所 示 。 簇 拥有 良好 的 定义 ,4 个 识别 的 簇 之 
间 有 相当 大 的 距离 。 人 然而， 在 其 他 情况 下 ， 比 如 图 4.8 中 ， 簇 可 能 太 接 近 彼 此 ， 因 此 界限 可 能 
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图 4.7 mEOSEETP 
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图 4.9 把 图 4.8 的 点 划分 成 6 SR 














4.2.5 选择 原因 及 注意 事项 









































































































































































































































k 均值 聚 类 是 一 种 简单 和 直接 的 聚 类 方法 。 一 旦 和 修 和 其 质心 被 确定 ， 就 很 容易 根据 对 象 到 
其 最 近 质心 的 距离 来 为 新 对 象 〈 例 如 ， 新 客户 ) 分 配 相应 的 复 。 因 为 该 方法 是 无 监督 的 ， 因 此 
使 用 k 均值 聚 类 有 助 于 从 分 析 中 消除 主观 性 。 
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EE 必须 做 出 下 面 几 个 决定 : 





















































然 k 均值 聚 类 被 认为 是 一 种 无 监督 的 方法 ， 但 是 使 用 
在 分 析 中 应 该 包括 哪些 对 象 属性 ? 

每 种 属性 应 该 使 用 哪些 计量 单位 ( 例如 ， 是 英里 还 是 公里 ) ? 

行 需要 重新 调整 属性 ， 以 防 某 个 属性 对 结果 造成 异乎 寻常 的 影响 ? 
否 需要 其 他 方面 的 考虑 ? 


1. 对 象 属性 
就 分 析 时 要 使 用 哪些 对 象 属性 ( 例如 ， 年 龄 和 收入 ) 而 言 ， 需 要 知道 新 对 象 的 哪些 属 | 
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4.2 均值 聚 类 


























































































































































































































































































































































































































































































































































































































其 被 分 配 簇 时 会 是 已 知 的 。 例 如 ， 现 有 客户 的 满意 度 或 购买 频率 的 信息 可 能 是 有 的 ， 但 是 潜在 
客户 的 这 些 信息 则 可 能 没有 。 

数据 科学 家 可 能 需要 在 十 几 个 或 者 更 多 的 属性 中 选取 在 肾 类 分 析 中 使 用 的 属性 。 最 好 是 根 
据 数据 尽 可 能 地 减少 属性 的 数量 。 太 多 的 属性 可 能 会 将 最 重要 变量 的 影响 最 小 化 。 此 外 ， 使 用 
多 个 相似 的 属性 可 能 会 突出 一 类 属性 的 重要 性 。 侈 如， 如 果 在 聚 类 分 析 中 使 用 5 个 涉及 个 人 财 
富 的 属性 ， 那 么 个 人 财富 属性 将 主导 分 析 ， 可 能 掩盖 其 他 属性 ( 比如 年 龄 ) 的 重要 性 。 

要 应 付 属性 太 多 的 问题 时 ,一 种 有 用 的 方法 是 识别 任何 高 度 相关 的 属性 ， 人 然后 在 聚 类 分 析 
只 使 用 相关 miter 的 一 种 或 者 两 种 。 如 图 4.10 所 示 ， 第 3 章 介 绍 的 散 点 图 矩阵 是 一 种 用 来 可 
视 化 成 对 属 
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Attribute6 


Attribute2 


Attribute 








图 4.10 7 个 属性 的 散 点 图 矩阵 





























在 图 4.10 中 观察 到 的 最 强 的 关系 是 Attribute 3 和 Attribute 7。 如 果 这 两 个 属性 中 的 其 中 一 个 
值 是 已 知 的 ， 则 另外 一 个 属性 的 值 几乎 也 就 知道 了 。 其 他 的 线性 关系 也 在 图 中 被 识别 。 例 如 ， 
考虑 Attribute 2 和 Attribute 3 的 关系 图 。 如 果 Attribute 2 的 值 是 已 知 的 ，Attribute3 的 值 依然 有 
很 大 的 取 值 空间 。 因 此 ， 在 聚 类 分 析 中 放弃 任何 一 个 属性 之 前 必须 多 加 考虑 。 
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减少 属性 数量 的 另 一 种 方法 是 将 多 个 属性 组 合 到 一 个 量度 中 。 例 如 ， 我 们 可 以 不 使 用 两 个 
量 属性 (一 种 用 于 债务 , 一 种 用 于 资产 )， 而 是 使 用 资产 负债 率 。 这 种 方法 还 解决 了 这 样 一 个 
题 ， 即 其 中 一 个 属性 的 大 小 无 关 紧 要 ， 但 是 相对 大 小 却 很 重要 。 



















































































































































































2. 属性 计量 单位 
从 计算 的 角度 来 看 ，K 均值 罕 类 算法 并 不 关心 给 定 属性 的 测量 单位 ( 例如 ， 患 者 的 身高 单位 
米 或 者 厘米 )。 然 而 ， 取 决 于 所 选择 的 计量 单位 ， 该 算法 会 识别 出 不 同 的 复 。 例 如 ， 假 设 k 均值 基 
于 年 龄 (年 ) 和 身高 (厘米 ) 对 患者 聚 类 。 当 k=2 时 ， 图 4.11 所 示 为 由 一 个 数据 集 确 定 的 两 个 自 。 
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(EE, CRS TRA AECKAR BOK, FARERNE, SUE] 4.12 所 示 。 























身高 (m) 








A412 ”用 米 表示 身高 的 聚 类 簇 
当 身 高 用 米 表示 时 ， 年 龄 的 大 小 支配 着 二 点 之 间 的 距离 计算 。 在 距离 计算 公式 4.3 的 平方 
根 符号 下 面 的 被 开 方 值 中 ， 身 高 属性 贡献 值 为 最 大 高 度 和 最 小 高 度 差 值 的 平方 ( 即 (2.0-0)”=4 ), 
而 年 龄 的 贡献 值 (80-2) 关 6400。 

3. 属性 值 调整 
在 聚 类 分 析 中 ， 以 美元 计量 的 属性 很 常见 ， 在 量 级 上 可 能 不 同 于 其 他 失 


















































































































































































































































性 。 例 如 ， 如 果 个 
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4.2 均值 聚 类 
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人 收入 以 美元 计 ， 年 龄 》 
很 容易 文 配 距离 计算 。 


th (通常 小 于 100 22, 那么 收入 属性 (经 常会 超过 10000 美元 ) 就 
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虽然 可 以 以 一 干 美元 为 单位 计量 收入 (例如 ，10 代表 10000 美元 )， 但 更 简单 的 方法 是 将 
每 种 属性 除 以 该 属性 的 标准 差 。 由 此 产生 的 新 属性 将 分 别 有 一 个 等 于 1 的 标准 差 ， 而 且 没 有 
位 。 回 到 年 龄 和 身高 的 例子 中 ,属性 标准 差分 别 是 23.1 年 和 36.4 厘米 。 将 每 个 属性 值 除 以 合适 
的 标准 差 并 执行 k 均值 分 析 ， 将 产生 图 4.13 所 示 的 结果 。 



























































身高 (重新 调整 过 ) 
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T ， 现 在 所 得 到 的 聚 类 复 边 界 介 于 早期 的 两 个 聚 类 分 析 之 
间 。 基 于 之 前 聚 类 分 析 中 尝试 的 属性 量 级 ， 发 生 这 种 现象 并 不 奇怪 。 一 些 专业 人 员 也 会 减 去 属 
性 均值 ， 使 属性 值 位 于 0 附近 。 然 而 ， 这 个 步骤 是 不 必要 的 ， 因 为 距离 公式 是 仅 与 属性 的 衡量 
EVER EL) 相关 。 
在 许多 统计 分 析 中 ， 经 常 将 带 有 长 尾 的 倾斜 数据 (比如 收入 ) 进行 取 对 数 处 理 。i 
理 也 可 以 应 用 到 k 均值 聚 类 中 ,但 是 数据 科学 家 需要 知道 这 种 处 理 将 带 来 怎样 的 影响 。 例 如 ， 
如 果 使 用 对 收入 取 logio BSEC (收入 的 单位 为 美元 )， 本 质 上 等 于 说 ， 从 聚 类 的 角度 来 看 ， 
1000 美元 到 10000 美元 的 距离 和 10000 美元 到 100000 美元 的 距离 一 样 ( 因为 108101000=3， 
log1010000=4, log10100000=5 ). 在 很 多 情况 下 , 数据 的 倾斜 可 能 是 执行 聚 类 分 析 的 首先 原因 。 


4. 其 他 注意 事项 

k 均值 聚 类 算法 对 初始 质心 的 开始 位 置 是 敏感 的 。 因 此 ， 针 对 一 个 特定 的 k 值 运 行 多 次 k 
均值 分 析 是 非常 重要 的 ， 以 确保 聚 类 结果 具有 整体 上 最 小 的 WSS。 前 面 讲 到 ， 这 可 以 在 R 的 
kmeansO 国 数 调用 中 使 用 nstart 选项 来 完成 。 

本 章 介 绍 了 使 用 欧 几 里 德 距离 函数 (Euclidean distance function ) 来 计算 离 数 据点 最 近 的 质 
心 。 其 他 可 能 的 函数 包括 余弦 相似 度 (cosine similarity ) 函数 和 曼哈顿 距离 ( Manhattan distance ) 
函数 。 余 弦 相 似 度 函 数 经 常 被 用 来 对 比 二 个 文档 ， 基 于 每 个 单词 在 每 个 文档 中 出 现 的 频率 [2]。 
对 于 两 个 点 pop». p.) q-(q1,42....4,). p Fl q 之 间 的 曼哈顿 距离 函数 di 如 公式 4.6 所 示 。 
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dlp,9) = 2 lP; -a;l (4.6) 
Tc 
曼哈顿 距离 函数 类 似 于 汽车 在 城市 中 行驶 的 距离 , 而 街道 的 布局 为 矩形 网 格 ( 如 城市 街区 )。 
在 欧 几 里 德 距离 中 ,测量 在 一 条 直线 上 进行 的 。 使 用 公式 4.6， 从 (1，1 ) 81 C4, 5) 的 距离 为 
1 一 4|+]1 一 5|=7。 从 优化 的 角度 来 看 ,如果 有 必要 使 用 曼哈顿 距离 来 分 析 聚 类 ,使 用 中 位 数 作 
为 质心 会 比 使 用 均值 作为 质心 更 好 [2]。 
k 均值 聚 类 适用 于 可 以 通过 具有 测量 意义 的 数值 属性 来 描述 的 对 象 。 从 第 3 章 可 知 ， 区 间 
和 比率 属性 类 型 也 是 适用 的 。 但 是 均值 不 能 很 好 地 处 理 分 类 变量 (categorical variable )。 W40 ， 
生 ( 比如 销售 价格 )， 汽 车 颜色 也 被 认为 很 重要 。 




















































































































假设 要 对 新 车 销售 进行 聚 类 分 析 。 除 了 其 他 属性 H 
虽然 人 们 可 以 为 不 同 颜色 分 配 数字 ， 例 如 红色 =1 ， 黄 色 =2， 绿 色 =3 ， 但 是 从 聚 类 的 角度 来 看 
黄色 与 红色 的 距离 等 于 黄色 与 绿色 的 距离 是 没有 意义 的 。 在 这 种 情况 下 ， 就 有 必要 使 用 
外 的 聚 类 技术 。 这 将 在 下 一 节 中 讨论 。 














































































































































































































4.3 ”其 他 算法 


k 均值 聚 类 方法 能 很 容易 应 用 到 有 距离 概念 的 数值 性 数据 中 。 然 而 ， 有 时 候 有 必要 使 用 另 
外 的 聚 类 算法 。 在 上 一 节 末 尾 讲 到 ,k 均值 无 法 处 理 分 类 数据 。 在 这 种 情况 下 , k 模式 (k-mode ) 
[3] 是 一 种 常用 的 针对 分 类 数据 的 聚 类 方法 ， 它 基于 属性 各 自 组 成 部 分 的 差异 的 数量 来 进行 。 例 
nd, 如果 每 个 对 象 有 4 个 属性 ， 从 (a, b, e, d) SJ (d, d, d, d) 的 距离 是 3。 TER 语言 中 , kmode() 
函数 在 klaR 包 中 实现 。 
因为 k 均 值 和 模式 把 整个 数据 集 分 成 不 同 的 小 组 ， 因 此 这 两 种 方法 被 认为 是 划分 方法 。 
第 三 种 划分 方法 叫 于 绕 中 心 点 的 划分 (Partitioning around Medoids, PAM) [4]。 大 体 上 讲 ， 
个 中 心 点 是 一 组 对 和 象 中 的 一 个 代表 对 和 象 。 在 聚 类 中 ， 对 于 每 个 聚 类 簇 的 中 心 点 ， 从 
达 簇 中 其 他 对 象 的 距离 总 和 最 小 。 使 用 PAM 的 优点 是 每 个 答 的 “中 心 ” 是 数据 集中 的 一 个 真 
正 的 对 象 。PAM 在 R 语言 cluster 包 中 的 pam0 函 数 中 实现 。R 语言 的 fpe 包 包 含 一 个 pamk() 
Pa, “ERE pamO rh BOR AIK k 的 最 优 值 。 
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[他 聚 类 方法 包括 分 层 式 凝 聚 聚 类 法 ( hierarchical agglomerative clustering ) 和 密集 聚 类 ( density 
clustering ) 方法 。 在 分 层 式 凝 罕 聚 类 法 中 ， 最 初 每 个 对 象 单独 作为 一 个 秘 ， 然 后 最 相似 的 簇 进行 合 
o 这 个 过 程 一 直 重 复 , 直到 只 剩 下 一 个 包含 了 所 有 对 象 的 族 。 R 语言 的 stats 包 包含 了 执行 分 层 式 
凝聚 聚 类 的 hclust0 函 数 。 在 密度 聚 类 方法 中 ， 聚 类 复 通 过 点 的 浓度 来 识别 。R 语言 的 fpe 包 包 含 
一 个 dbscan0 函 数 ， 用 于 执行 密度 聚 类 分 析 。 密 度 聚 类 分 析 在 识别 不 规则 形状 的 复 时 很 有 用 。 

































































4.4 总 结 
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生 对 相似 的 对 象 进行 分 组 。 到 类 的 应 用 领域 包括 市 场 营销 、 经 济 学 、 







































































生物 学 、 医 学 等 。 本 章 详细 介 
做 到 以 下 几 点 很 重要 : 
e 适当 调整 属性 的 值 ， 以 防止 某 
@ 确保 x UN ART 
e 选择 合适 的 聚 类 签 的 数量 k， 使 得 距离 的 WSS 总 和 被 合理 地 最 小 化 。 像 图 4.5 中 的 图 
可 以 在 这 方面 有 所 帮助 。 
对 于 一 个 给 定 的 数据 集 来 说 ， 如 果 k 均值 看 起 来 不 是 一 个 合适 的 聚 类 方法 ， 那 么 就 需要 考 
虑 其 他 技术 ， 比 如 上 模式 和 PAM. 
一 旦 识别 了 聚 类 徐 ， 使 用 描述 性 的 方式 来 标注 这 些 簇 常常 很 有 用 。 特 别 是 当 与 上 级 管理 部 
门 打 交道 时 ， 这 些 标注 可 以 让 我 们 轻松 地 沟通 聚 类 分 析 的 结果 。 在 聚 类 中 ， 标 注 不 会 预先 分 配 
给 每 个 对 象 。 只 有 在 识别 了 簇 后 ， 才 会 进行 主观 地 标注 。 第 7 章 讲 解 了 几 种 方法 ， 它 们 使 用 预 
的 标注 来 执行 对 象 分 类 。 聚 类 可 以 与 其 他 分 析 技 术 ( 比如 回归 ) 一 起 使 用 。 线 性 回归 和 
逻辑 回归 将 在 第 6 章 中 讨论 。 
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AS k 均值 聚 类 算法 以 及 它 的 了 实现 。 要 正确 地 使 用 K 均 值 聚 类 ， 
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4.5 练习 


1. 在 4.2.5 SNE MRA IH, 24d HoEimdixeBDEOEXERBE, HX 
数 的 方式 来 阐述 其 对 距离 测量 的 影响 。 解 释 为 什么 当 病 人 身高 的 测量 单位 不 同时 ， 会 产生 不 
同 的 聚 类 结果 ? 


2 比较 和 对 照 S 案 类 算法 ， 由 导师 指定 或 学 生 自 己 选 择 。 


3. 使 用 R 语言 cluster 包 中 的 ruspini 数据 集 ， 执 行 一 个 k 均值 分 析 。 记 录 弓 
择 的 k 值 。 提 示 : 使 用 data(ruspini) 将 数据 集 加 载 到 R 工作 区 。 
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关联 规则 
Apriori 算法 
支持 度 
置信 和 度 
提升 度 
RLF ZE 


本 音 讨 论 一 种 名 为 关联 规则 




























































































的 无 监督 学 习 方法 。 这 是 





























种 描述 




















5.1 概述 


































































































































































































































































































































































































术 性 的 而 非 预 测 性 的 方法 ， 经 























































































































汝 用 于 发 现 隐藏 在 大 型 数据 集 背 后 的 有 趣 关系 。 而 所 揭示 的 关系 可 以 被 表示 为 规则 或 频繁 项 集 
( frequent itemset )。 关 联 规则 通常 用 于 挖掘 数据 库 中 的 交易 。 
芷 是 关联 规则 可 以 回答 的 一 些 问 题 。 

e 哪些 产品 可 能 会 被 一 起 购买 ? 

e 与 这 个 人 相似 的 客户 倾向 于 购买 什么 产品 ? 

e 对 于 已 经 购买 了 该 产品 的 客户 ， 他 们 还 可 能 查看 或 者 购买 什么 其 他 类 似 的 产品 ? 
5.1 概述 

图 5.1 显示 了 关联 规则 背后 的 一 般 逻 辑 。 给 定 一 个 大 型 的 交易 集合 〈 在 图 中 描述 为 的 三 堆 
收据 )， 其 中 每 笔 交 易 包括 一 个 或 多 个 商品 (item )， 关 联 规则 通过 分 析 购 买 的 物品 ， 看 看 哪些 
商品 经 浓 一 起 被 购买 ， 并 发 现 用 来 描述 购买 行为 的 一 系列 规则 。 关 联 规则 的 目的 是 发 现 商品 之 
间 有 趣 的 关系 (这 种 关系 发 生得 大 过 频繁 ， 以 至 于 不 能 认为 它 是 随机 的 ， 而 且 从 商业 角度 来 看 ， 
尽管 这 种 关系 可 能 不 明显 , 但 是 很 有 意义 )。 这 种 有 趣 关 系 既 取决 于 业务 环境 ,也 取决 于 发 现 关 
系 的 算法 。 
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图 5.1 ”关联 规则 背后 
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HX, 规则 的 右边 
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提取 为 模式 。 被 发 现 的 规 
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则 列 在 图 5.1 的 右边 。 前 三 条 规则 表明 ， 顾 客 在 购买 麦片 时 ，90% 的 情况 下 也 会 购买 牛奶 ; 
顾客 在 购买 面包 时 ，40% 的 情况 下 也 会 购买 牛奶 ; 顾客 当 购买 牛奶 时 ，23% 的 情况 下 也 会 购 
i 

在 零售 商店 的 例子 中 ， 关 联 规则 被 用 于 包含 一 个 或 多 个 商品 的 交易 。 事 实 上 ， 由 于 经 常 被 用 于 
挖掘 客户 交易 ， 关 联 规则 有 时 也 称 为 购物 簧 分析 (market basket analysis )。 每 一 个 交易 可 以 被 看 作 
是 一 个 客户 的 购物 篮 ， 它 包含 了 一 个 或 多 个 商品 。 这 也 被 称 为 一 个 项 集 (itemset )。 术 语 “ 项 集 ” 指 
的 是 包含 某 种 关系 的 一 系列 项 目 (或 单独 的 个 体 )。 这 可 以 是 在 一 次 交易 中 一 起 购买 的 一 系列 零售 
商品 ， 也 可 以 一 个 用 户 在 单个 会 话 中 点 击 的 一 组 超 链 接 ， 还 可 以 是 一 天 内 完成 的 一 组 任务 。 包 含 
k 个 项 目的 项 集 称 为 k 项 集 ( k-itemset )。 本 章 使 用 类 似 于 {fitem litem 2,... itemk} 的 花 括号 来 表示 
一 个 k 项 集 。 在 计算 关联 规则 时 通常 基于 项 集 。 


























































































































关联 交易 的 研究 始 于 20 世纪 60 FERo Hajek 等 人 [1] 在 早期 研究 中 介绍 了 关联 规则 学 习 的 
许多 关键 概念 和 方法 , 但 是 主要 关注 的 是 数学 表达 , 而 不 是 算法 , 在 20 世纪 90 ERI, Agrawal 
等 人 [2] 将 关联 规则 学 习 架 构 引 入 数据 库 社 区 ， 用 于 在 由 超市 内 的 销售 终端 系统 记录 的 客户 交易 
大 型 数据 库 中 寻找 产品 之 间 的 规律 。 在 随后 的 几 年 中 ， 这 种 方法 扩展 到 Web 环境 ， 如 挖掘 路 径 
遍历 模式 [3] 和 使 用 模式 [4]， 以 协助 Web 页 面 的 组 织 。 
本 章 选 取 了 Apriori 作为 讨论 关联 规则 的 重点 Apriori[5] 是 用 于 生成 关联 规则 的 最 早 的 、 最 
基本 的 算法 。 它 率先 使 用 了 文 持 度 (suppot ) 来 修剪 项 集 和 控制 候选 项 集 的 指数 级 增长 。 通 过 合 
和 修剪 较 短 的 候选 项 集 ( 也 称 为 频繁 项 集 )， 可 以 生成 更 长 的 频繁 项 集 。 这 种 方法 也 就 不 再 需 
要 在 算法 中 枚 举 所 有 可 能 的 项 集 ， 因 为 所 有 可 能 的 项 集 的 数量 可 能 是 指数 级 的 。 
Apriori 的 一 个 主要 组 件 是 支持 度 (support )。 给 定 一 个 项 集 世 , L 的 支持 度 [2] 是 包含 世 的 交 
易 的 百分比 。 例 如 ， 如 果 80% 的 交易 含有 项 集 {bread} ， 则 {bread} 的 支持 度 就 是 0.8。 同 样 ， 如 
果 所 有 交易 的 60% 包 含 项 集 {bread,butter} ， 则 {bread,butter} 的 支持 度 是 0.6。 
一 个 频繁 项 集 包 含 足 够 频繁 地 一 起 出 现 的 项 目 。 这 里 “ 够 频繁 ”( often enough ) 使 用 最 小 
支持 度 (minimum support ) 进行 正式 定义 。 当 最 小 支持 度 设置 为 0.5， 如果 至 少 50% 交 易 包含 菜 
个 项 集 ， 那 么 该 项 集 可 以 被 认为 是 一 个 频繁 项 集 。 换 句 话说 ,一 个 频繁 项 集 的 支持 度 应 大 于 或 
等 于 最 小 支持 度 。 对 于 前 面 的 例子 来 说 , {bread} 和 {bread,butter} 在 最 小 支持 度 为 0.5 时 都 被 认为 
是 频繁 项 集 。 如 果 最 小 支持 度 为 0.7， 只 有 {bread} 可 以 被 认为 是 一 个 频繁 项 集 。 
如 果 一 个 项 集 被 认为 是 频繁 的 ， 那 么 该 频繁 项 集 的 任何 子 集 也 必定 是 频繁 的 。 这 称 为 
Apriori 属性 (或 者 向 下 封闭 性 )。 例如， 如 果 60% 的 交易 包含 {bread,jam} ， 那 么 至 少 60% 的 交 
易 将 包含 {bread} 或 {jam}。 换 句 话 说 ， 当 {bread,jam} 的 支持 度 为 0.6 时 ，{bread} 或 {jam} 的 支 
持 度 至 少 为 0.6。 图 5.2 所 示 为 Apriori 属性 。 如 果 项 集 {B,C,D} 是 频繁 的 ， 那 么 图 中 这 个 项 集 
的 所 有 子 集 ( 着 阴影 )， 也 必定 是 频繁 项 集 。Apriori 属性 是 Apriori 算法 的 基础 。 
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5.2 Apriori 算法 
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5.2 ”项 集 众 ,B,C,D} 和 它 的 子 集 











5.2 Apriori 算法 


Apriori 算法 采取 一 种 自 下 而 上 的 和 代 方法 ， 它 首先 确定 所 有 可 能 的 项 目 (或 者 1 项 集 , 例 
如 {面包 }, {鸡蛋 }, {牛奶 }, .… )， 然 后 确定 其 中 哪些 是 频繁 的 ， 从 而 发 现 频繁 项 集 。 
恨 设 最 小 支持 度 靖 值 ( 或 最 小 支持 度 准则 ) 设 定 为 05， 该 算法 将 识别 并 保留 至 少 在 所 有 交 
易 的 50% 中 出 现 的 那些 项 集 ， 丢 弃 〈 或 “修剪 挥 “) 支持 度 小 于 0.5 或 者 在 小 于 50% 的 交易 中 
出 现 的 那些 项 集 。 修 和 剪 在 园艺 中 是 表示 剪 掉 不 想 要 的 淮 木 分 支 ， 在 这 里 表达 的 意思 是 
在 Apriori 算法 的 下 一 次 迭代 中 ， 所 识别 的 频繁 1 项 集 被 配对 成 2 项 集 (例如 ，{ 面 包 , 38 

















































































































































































































































































































































































































































































































































































































































































































Ep {面包 ,牛奶 }, (SER, PVG}, ...), 次 进行 评价 以 确定 当中 的 频繁 2 项 集 。 

在 每 次 迭代 中 ， 算 法 检查 支持 度 准 则 是 否 被 满足 ; 如 果 满 足 ， 算 法 将 增 大 项 集 并 重复 这 个 
过 程 ， 直 到 文 持 度 过 低 ， 或 者 项 集 达 到 了 预定 长 度 。Apriori 算法 [5] 如 下 所 示 。 变 量 C, 代表 候 
选 K 项 集 的 集合 ， 变 量 代表 满足 最 小 支持 度 的 k 项 集 的 集合 。 给 定 一 个 交 Ee D 、 一 个 



















































































， 7) 
B/S MERLO, NAATA N ( 代表 一 个 项 集 可 以 达到 的 最 大 长 度 )，Apriori 3E] 
Li 计算 来 迭代 计算 频繁 项 集 Luc 


1 Apriori (D, Ó, N) 
2 vx 

3 Ly, + (l-itemsets that satisfy minimum support ô} 
4 while L,4¢ 

5 — if ÉNV(3NAK«N) 

6 Cui — candidate itemsets generated from Lx 
7 

8 

9 

1 

1 
































for each transaction t in database D do 

increment the counts of Ck+1 contained in t 

Lii -candidates in Cx that satisfy minimum support 6 
0 kek+1 
1 return U,r, 
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Apriori 算法 的 第 一 步 是 识别 那些 由 交易 中 出 现 的 单个 项 目 组 成 的 ， 





第 5 章 高 级 分 析 理 论 与 方法 : 关联 规则 






































































































































持 度 闷 值 5 的 频繁 项 集 。 这 些 项 集 都 是 1 项 集 ， 表 示 为 L1， 因 为 每 个 1 项 集 只 包括 一 个 项 目 。 接 
下 来 ， 该 算法 通过 两 两 合并 Li 中 的 1 项 集 以 增长 形成 新 的 2 项 集 (用工 来 表示 )， 然 后 确定 L 
中 每 个 2 项 集 的 支持 度 。 那 些 不 满足 最 小 支持 度 阔 值 6 的 2 项 集 都 会 被 剪 掉 。 增 长 和 修剪 过 程 将 
反复 进行 ， 直 到 没有 项 集 满 足 最 小 支持 度 闪 值 。 作 为 一 个 可 选项 ， 可 以 设置 疹 值 N， 以 指定 项 
集 可 以 包含 的 最 大 项 目 数 量 ， 或 者 是 算法 的 最 大 友 代 次 数 。 一 旦 完成 ，Apriori 算法 的 输出 将 是 
所 有 频繁 k 项 集 的 集合 。 

接 下 来 ,将 以 前 面 讲 解 的 迭代 过 程 中 发 现 的 频繁 项 集 为 基础 ， 形 成 一 个 候选 规则 的 集合 。 
例如 ， 一 个 频繁 项 集 {milk，eggs} 可 以 表示 出 候选 规则 {mils} 一 {eggs} 和 {eggs} 一 {milk}。 

















































































































































































































































































































































































































5.3 评估 候选 规则 


频繁 项 集 可 以 形成 候选 规则 ， 比 如 X 意味 着 Y(X > Y)。 本 节 讨 论 如 果 使 用 诸如 置信 和 度 、 
提升 度 和 杜 杆 率 这 样 的 度量 来 评估 这 些 候选 规则 是 否 合适 。 
置信 和 度 (confidence ) [2] 被 定义 为 与 每 个 发 现 规则 相关 联 的 确定 性 或 可 信 度 。 在 数学 上 ， 置 
信和 度 是 同时 包含 X 和 YY 的 交易 与 所 有 包含 X 的 交易 的 百分比 〈 见 公式 5.1 )。 
Support( X ^Y) 
Support( X ) 
























































































































































































































































(5.1) 





Confidence(X — Y) = 


























例如 ， 如 果 {bread，eggs，milk} 的 支持 度 为 0.15，{bread ，eggs} 的 支持 度 也 为 0.15， 规 则 
{bread,eggs} 一 {milk} 的 置信 和 度 为 1， 这 意味 着 客户 在 购买 面包 和 鸡蛋 时 ， 肯 定 也 会 购买 牛奶 。 
此 ， 对 于 包含 面包 和 鸡蛋 的 所 有 交易 ， 这 条 规则 是 正确 的 。 

当 算法 识别 出 的 关系 的 置信 度 大 于 或 等 于 预定 义 靖 值 时 ， 该 关系 可 能 会 被 认为 是 有 趣 的 。 
这 个 预定 义 的 姜 值 名 为 最 小 置信 度 (minimum confidence )。 根 据 样本 数据 集 ， 较 高 的 置信 度 表 
示 规 则 (X 一 Y) 更 有 趣 或 更 值得 信赖 。 
到 目前 为 上 ， 本 章 讨 论 了 Apriori 算法 使 用 的 两 种 常见 度量 : 支持 度 和 置信 和 度 。 所 有 的 规则 
都 可 以 基于 这 两 个 度量 来 排名 ， 以 滤 除 无 趣 的 规则 并 保留 有 趣 的 规则 。 
里 然 置 信和 度 可 以 从 所 有 候选 规则 中 识别 有 趣 的 规则 , 却 会 带 来 一 个 问题 ,给 定 规 则 X 一 Y, 
置信 和 度 只 考虑 先导 (X ) 和 共存 的 X 和 Y， 它 没有 将 规则 的 后 继 CY ) 考虑 进去 。 因 此 ， 置 信和 度 
不 能 确定 规则 是 包含 这 个 关系 的 真正 含义 ， 还 是 纯 属 巧合 。X 和 YY 可 以 在 统计 独立 的 情况 下 仍 
获得 较 高 的 置信 和 度 。 其 他 度量 ( 比如 提升 度 和 杜 杆 率 ) 可 以 用 来 解决 这 个 问题 。 

提升 度 Cift) 测量 当 X 和 YY 相互 统计 独立 时 ，X 和 Y 一 起 出 现 的 次 数 比 预期 多 多 少 。 提 
升 度 是 X 和 YY 真正 相关 性 ( 而 非 巧合 地 共同 出 现 ) 的 一 种 度量 [6] ( 见 公 式 5.2 )。 

Support( X ^Y) 
Support( X )* Support(Y) 
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Lift(X = Y)= (5.2) 


AUR X 和 Y 相互 统计 独立 的 ， 那 么 提升 度 为 是 1。 相 比 之 下 ， 规 则 xY 的 提升 度 大 于 1 




























































































5.4 ”关联 规则 的 应 用 
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表示 规则 是 有 用 的 。 提 升 度 的 值 越 大 ， 表 明 X 和 YY 之 间 的 关联 性 更 强 。 
假设 有 1000 宗 交 易 ，{milk，eggs} 在 其 中 的 300 宗 交 易 中 出 现 ，{milk} 在 500 宗 交 易 中 出 
现 ，{egg} 在 400 宗 交 易 中 出 现 ， 则 Lift(milkeggs)=0.3/(0.5*0.4)=1.5. WMR {bread} fE 400 宗 交 
出 现 ，{milk，bread} 在 400 宗 交 易 中 出 现 ， 则 Lift(milk—bread)=0.4/(0.5*0.4)=2. Atk, PJV 
得 出 结论 ， 即 面包 和 牛奶 的 关联 性 要 强 于 牛奶 和 鸡蛋 。 
杠杆 率 [7] 是 一 种 类 似 的 概念 ， 但 使 用 的 不 是 比率 ， 而 是 使 用 差 〈 见 公式 5.3 )。 杜 杆 率 测量 的 
是 , X 和 YY 在 数据 集中 一 起 出 现 的 概率 与 X 和 YY 相互 统计 独立 时 一 起 出 现 的 概率 ， 这 两 者 的 差 。 
Leverage = (X — Y) = Support(X ^Y)— Support(X)* Support(Y) (5.3) 
从 理论 上 讲 , 当 X 和 YY 相互 统计 独立 时 ,杠杆 率 为 0。 如 果 X 和 YY 具有 某 种 关系 , 杠杆 率 
将 大 于 0。 较 大 的 杠杆 率 表示 X 和 Y 之 间 有 更 强 的 联系 。 对 于 前 面 的 例子 ，Leverage(milk 一 
eggs)=0.3-(0.5*0.4)=0.1 和 Leverage(milk 一 bread)=0.4-(0.5*0.4)=0.2。 这 再 次 证 实 了 牛奶 和 面包 的 
关联 确实 强 于 牛奶 和 鸡蛋 。 
置信 度 能 够 识别 信 的 规则 ， 但 是 它 不 能 确定 这 个 规则 是 否 是 巧合 。 高 置信 度 的 规则 有 时 会 
产生 误导 ， 因 为 置信 度 没 有 考虑 规则 右边 (RHS ) 项 集 的 支持 度 。 提 升 度 和 杠杆 率 等 度量 不 但 
能 确保 识别 出 有 趣 的 规则 ， 还 能 过 滤 出 巧合 的 规则 。 
本 章 讨论 了 关联 规则 的 4 种 度量 (支持 度 、 置 信 度 、 提 升 度 和 杠杆 率 ) 的 意义 和 趣味 性 。 
这 些 度量 可 以 确保 从 样本 数据 集中 发 现 有 he LA 余 了 这 4 种 度量 ， 还 有 其 他 可 选 的 
度量 ， 比 如 关联 [8] 、 收 集 强度 [9] 、 确 信和 度 [6] 和 禾 盖 度 [10]。 请 参考 推荐 书目 了 解 这 些 度量 是 如 
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5.4 关联 规则 的 应 用 


“购物 篮 分 析 ”( market basket analysis ) 指 的 是 关联 规则 挖掘 的 一 种 特定 应 用 ， 很 多 公司 将 

其 用 于 多 种 目的 ， 如 下 所 示 。 
进行 销 的 广泛 方法 每 个 月 应 该 在 库存 中 包含 什么 产品 或 剔除 什么 产品 。 
普通 产品 与 高 利润 或 奢侈 商品 的 交叉 销售 。 
EN 
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关 类 别 的 产品 之 间 ， 考 虑 产品 的 物理 或 逻辑 的 摆 放 位 置 。 
jik 通过 会 员 卡 项 目 来 激励 用 户 购买 更 多 的 产品 。 
了 购物 篮 分 析 ， 关 联 规则 通常 用 于 推荐 系统 [11 和 点 击 流 分 析 [12]。 

许多 在 线 服务 提供 商 (比如 Amazon 和 Netflix ) 都 使 用 了 推荐 系统 。 推 荐 系统 可 以 使 用 关 
联 规则 来 发 现 相关 的 产品 ， 或 者 识别 具有 相似 兴趣 的 客户 。 例 如 ， 关 联 规则 可 能 提示 购买 了 商 
品 A 的 顾客 也 购买 了 商品 B， 或 者 是 购买 商品 A、B 和 C 的 那些 顾客 与 该 顾客 更 相似 。 这 些 发 
用 为 零售 商 提供 了 交叉 销售 产品 的 机 会 。 

点 击 流 分 析 是 指 分 析 网 页 浏览 和 用 户 点 击 产生 的 相关 数据 ， 这 些 数据 储存 在 客户 端 或 服务 
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"m. Web 服务 器 上 生成 的 Web 使 用 日 志文 件 包 含 大 量 的 信息 ， 关 联 规则 可 能 会 提供 有 用 的 知 
RHF Web 使 用 数据 分 析 。 例如， 关联 规则 可 能 提示 页 面 X 的 访客 点 击 链接 A、B 和 C 的 频率 
要 比 链接 D、E 和 了 高 。 这 一 观察 能 帮助 更 好 地 为 网 站 访客 定制 和 推荐 网 站 内 容 

] R yt 于 关联 规则 挖 所 
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节 将 讲解 一 个 杂货 店 交 易 的 示例 ， 并 演示 如 何 





5.5. ”杂货 店 交 易 示例 


这 是 一 个 在 相对 简单 的 情况 中 使 用 Apriori 算法 的 示例 ， 可 以 将 其 推广 到 实践 中 使 用 。 通过 
使 用 R arules 包 和 arulesViz 包 , 这 个 例子 说 明了 如 何 使 用 Apriori 算法 来 生成 频繁 项 集 和 规则 ， 
全 
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和 可 视 化 规则 。 
面 的 命令 安装 这 两 个 包 ， 并 将 其 导入 到 当前 R 工作 
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install.packages('arules') 
install.packages('arulesViz') 





library('arules') 
library('arulesViz') 


5.5.1 杂货 店 数据 集 


该 示例 使 用 R 语言 arules 软件 包 的 Groceries 数据 集 。Groceries 数据 集 取 自 一 家 杂货 店 30 
天 的 终端 销售 真实 交易 数据 。 这 个 数据 集 包 括 9835 条 交易 ， 交 易 商 品 被 划分 为 169 个 类 别 。 




























































































data (Groceries) 

Groceries 

transactions in sparse format with 
9835 transactions (rows) and 
169 items (columns) 


fe PIBIBSL AH RIVER SI, SESE HUIUSCE RS FE m Euh HR UA). SR. TA ERAT TR 
包 、 苏 打 水 和 酸奶 等 。 这 些 商品 的 购买 频率 其 他 商品 
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summary (Groceries) 

transactions as itemMatrix in sparse format with 
9835 rows (elements/itemsets/transactions) and 
169 columns (items) and a density of 0.02609146 


most frequent items: 


whole milk other vegetables rolls/buns soda 
2513 1903 1809 1715 
yogurt (Other) 
1372 34055 
element (itemset/transaction) length distribution: 
sizes 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 


2159 1643 1299 1005 855 645 545 438 350 246 182 117 78 77 


5.5 ”杂货 店 交易 示例 





15 16 17 I8 19- 20° 21.22. 23. 24. .20- 27.28 29 
55 46 29 14 14 oue ld 4 6 工 1 i 3 


Min. lst Qu. Median Mean 3rd Qu. Max. 
1.000 2.000 3.000 4.409 6.000 32.000 


includes extended item information - examples: 
labels level2 levell 

1 frankfurter sausage meet and sausage 

2 sausage sausage meet and sausage 

3 liver loaf sausage meet and sausage 









































数据 集 的 类 是 transactions, FH arules 包 所 定义 。transactions 类 包含 三 列 信息 。 
€ transactionInfo: 一 个 数据 帧 ， 其 向 量 长 度 与 交易 的 数量 相同 。 

€ itemInfo: 储存 商品 标签 的 数据 帧 。 
€ data: 二 进 制 关联 和 矩阵， 表示 在 每 次 交易 中 出 现 哪 些 商品 标签 。 
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class (Groceries) 

[ "transactions" 
attr(,"package") 

[ "arules" 























对 于 Groceries 数据 集 ,transactionInfo 没有 使 用 到 。 输 入 Groceries 9 itemInfo 来 显示 所 有 169 
商品 标签 以 及 它们 的 类 别 。 下 述 命令 只 显示 前 20 个 商品 标签 。 每 个 商品 标签 被 映射 到 两 层 类 
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， 它 是 levell 中 meat and sausage 类 的 一 部 分 。( 请 注意 ，levell 的 “meet” 是 数据 集中 的 一 个 
























































米 
ES 
Hill: level2 Fil levell; levell 是 level2 的 超 集 。 例 如 ， 商 品 标签 sausage 属于 level2 中 的 sausage 
类 








Ato 
TAK Jo 


Groceries@itemInfo[1:20,] 








labels level2 levell 
1 frankfurter sausage meet and sausage 
2 sausage sausage meet and sausage 
3 liver loaf sausage meet and sausage 
4 ham sausage meet and sausage 
5 meat Sausage meet and sausage 
6 finished products sausage meet and sausage 
7 organic sausage Sausage meet and sausage 
8 chicken poultry meet and sausage 
9 turkey poultry meet and sausage 
0 pork pork meet and sausage 
1 beef beef meet and sausage 
2 hamburger meat beef meet and sausage 
3 fish fish meet and sausage 
4 citrus fruit fruit fruit and vegetables 
5 tropical fruit fruit fruit and vegetables 
6 pip fruit fruit fruit and vegetables 
7 grapes fruit fruit and vegetables 
8 berries fruit fruit and vegetables 
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19 nuts/prunes 
20 root vegetables 
下 面 的 代码 显示 Groceries 数据 




















示 所 有 交易 。 


apply (Groceries@data[,10:20], 





2, 


fruit fruit and vegetables 
vegetables fruit and vegetables 


集中 第 10 到 第 20 项 交易 。 可 以 将 [10:20] 改 为 [1:9835] 以 显 







































































































































































































































































































































































































































































































































































function(r) paste(GroceriesQüitemInfo[r,"labels"], collapse=", ") 
) 
每 一 行 输出 显示 了 包含 一 个 或 多 个 商品 的 一 笔 交易 ， 并 且 每 笔 交 易 会 对 应 客户 购物 车 中 的 
所 有 商品 。 例 如 ， 在 第 一 笔 交易 中 ， 该 客户 购买 了 全 脂 奶粉 和 麦片 。 
1] "whole milk, cereals" 
2] "tropical fruit, other vegetables, white bread, bottled water, 
chocolate" 
3] "citrus fruit, tropical fruit, whole milk, butter, curd, yogurt, flour, 
bottled water, dishes" 
4] "beef" 
5] "frankfurter, rolls/buns, soda" 
6] "chicken, tropical fruit" 
7] "butter, sugar, fruit/vegetable juice, newspapers" 
8] "fruit/vegetable juice" 
9] "packaged fruit/vegetables" 
10] "chocolate" 
11] "specialty bar" 
下 一 节 介绍 如 何 从 Groceries 数据 集中 生成 频繁 项 集 。 
Jis se, 
5.5.2 ”生成 频繁 数据 集 
arule 软件 包 中 的 apriori0 函 数 实现 了 Apriori 算法 ， 来 创建 频繁 项 集 。 需 要 注意 的 是 ， 在 默 
认 情 况 下 ，apriori0) 函 数 会 一 次 执行 所 有 迭代 。 然 而 ， 为 了 演示 Apre 算法 是 如 何 工 作 的 ， 本 
节 中 的 代码 示例 手动 设置 了 aprioriO 函 数 的 参数 ， 以 模拟 算法 每 一 次 的 迭代 。 
假设 根据 管理 层 的 决定 ,将 最 小 支持 度 国 值 设置 为 0.02。 De 包含 9853 笔 交 易 ， 
个 项 集 出 现 至 少 198 次 ， 才 能 被 认为 是 一 个 频繁 项 集 。Apriori 算法 的 第 一 次 迭代 会 计算 数据 集 
中 每 个 商品 的 支持 度 , 并 保留 满足 最 小 支持 度 的 那些 商品 。 下 面 代 码 识 别 出 了 59 个 满足 最 小 支 
持 度 的 频繁 1 项 集 。apriori0 的 参数 指定 了 项 集 的 最 小 和 最 大 长 度 、 最 小 支持 度 闷 值 ， 以 及 要 控 
据 的 关联 类 型 的 目标 。 
itemsets«- apriori(Groceries, parameter-list (minlen-1, maxlen=1, 


support-0.02, target="frequent itemsets")) 


parameter specification: 


confidence minval smax arem aval originalSupport support minlen 


0.8 0.1 1 none FALSE 
maxlen target ext 


1 frequent itemsets FALSE 


TRUE 0.02 


1 


5.5 ”杂货 店 交易 示例 





algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 


apriori - find association rules with the apriori algorithm 
version 4.21 (2004.05.09) (c) 1996-2004 Christian Borgelt 


set item appearances … [0 item(s)] done [0.00s]. 

set transactions …[169 item(s), 9835 transaction(s)] done [0.00s]. 
Sorting and recoding items *** [59 item(s)] done [0.00s]. 

creating transaction tree :* done [0.00s]. 

checking subsets of size 1 done [0.00s]. 

writing *** [59 set(s)] done [0.00s]. 


creating S4 object ** done [0.00s]. 
项 集 的 汇总 显示 ，! 项 集 的 支持 度 范 围 为 0.02105 一 0.25552 。 因 为 数据 集中 1 项 集 的 最 大 支 
持 度 为 0.25552， 为 了 能 够 发 现 有 趣 规则 ， 最 小 支持 度 的 靖 值 不 应 该 设置 得 过 于 接近 这 个 数字 。 






















































































summary (itemsets) 
set of 59 itemsets 


most frequent items: 
frankfurter sausage ham meat chicken 
1 1 1 1 1 
(Other) 
54 


element (itemset/transaction) length distribution:sizes 
T 
59 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
1 i 1 Rh 1 ak 


summary of quality measures: 


support 
Min. :0.02105 
lst Qu. :0.03015 
Median :0.04809 
Mean :0.06200 
3rd Qu. :0.07666 
Max. :20.25552 


includes transaction ID lists: FALSE 


mining info: 
data ntransactions support confidence 
Groceries 9835 0.02 1 


下 面 的 代码 使 用 inspectO 函 数 来 显示 排名 前 10 位 的 频繁 1 项 集 (按照 支持 度 来 排序 )。 在 
所 有 的 交易 记录 中 ， 有 59 个 1 项 集 ( 如 {whole milk), (other vegetables), {rolls/buns}, (soda] f 




































































deal 
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{yogurt} ) 满足 最 小 支持 度 。 因 此 ， 它 们 被 称 为 频繁 1 项 集 。 








inspect (head(sort (itemsets, by = "support"), 10)) 
items support 
1 {whole milk} 0.25551601 
2 {other vegetables} 0.19349263 
3 {rolls/buns} 0.18393493 
4 {soda} 0.17437722 
5 {yogurt} 0.13950178 
6 {bottled water} 0.11052364 
7 {root vegetables} 0.10899847 
8 {tropical fruit} 0.10493137 
9 {shopping bags} 0.09852567 
10 (sausage) 0.09395018 



































在 下 一 迭代 中 ,频繁 1 项 集 两 两 合并 ， 以 形成 所 有 可 能 的 候选 2 项 集 。 例如 ，1 项 集 {whole 
milk} 和 {soda} 被 合并 成 为 一 个 2 项 集 {whole milk,soda}。 算法 计算 各 候选 2 项 集 的 支持 度 , 并 保 
留 那些 满足 最 小 支持 度 的 2 项 集 。 下 列 的 输出 显示 已 经 识别 出 了 61 个 频繁 2 项 集 。 





































































































itemsets«- apriori(Groceries, parameter-list (minlen-2, maxlen-2, 
support=0.02, target="frequent itemsets")) 


parameter specification: 
confidence minval smax arem aval originalSupport support minlen 
0.8 05 1. 1 none FALSE TRUE 0.02 2 
maxlen target ext 
2 frequent itemsets FALSE 
algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 


apriori - find association rules with the apriori algorithm 
version 4.21 (2004.05.09) (c) 1996-2004 Christian Borgelt 

set item appearances ***[0 item(s)] done [0.00s]. 

set transactions …[169 item(s), 9835 transaction(s)] done [0.00s]. 
Sorting and recoding items *** [59 item(s)] done [0.00s]. 

creating transaction tree :* done [0.00s]. 

checking subsets of size 1 2 done [0.00s]. 

writing *** [61 set(s)] done [0.00s]. 

creating S4 object ** done [0.00s]. 


该 项 集 汇总 表明 2 项 集 的 支持 度 范围 为 0.02003 一 0.07483 。 
































summary (itemsets) 
set of 61 itemsets 


most frequent items: 
whole milk other vegetables yogurt rolls/buns 
25 17 9 9 
soda (Other) 
9 53 


5.5 ”杂货 店 交易 示例 





element (itemset/transaction) length distribution:sizes 
2 
61 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
2 2 2 2 2 2 


summary of quality measures: 


support 
Min. :0.02003 
1st Qu. :0.02227 
Median :0.02613 
Mean 0.02951 
3rd Qu. :0.03223 
Max. :0.07483 


includes transaction ID lists: FALSE 


mining info: 
data ntransactions support confidence 
Groceries 9835 0.02 1 


排名 前 10 位 的 最 频繁 2 项 集 显示 在 下 面 〈 按 照 其 文 持 度 排序 ) 值得 注意 的 是 ， 在 按照 文 


















































































































































和 村 度 排序 的 前 10 名 2 项 集中 , 全 脂 奶 粉 占据 6 席 。 在 前 面 看 到 , 在 所 有 1 项 集中 ,， {whole milk} 

























































































有 最 高 的 文 持 度 。 这 些 拥 有 最 高 文 持 度 的 前 10 名 2 项 集 可 能 是 无 趣 的 ; 这 也 凸显 了 只 使 用 文 












































度 的 局 限 性 。 





inspect (head(sort(itemsets, by -"support"),10)) 

items support 
1 (other vegetables, 

whole milk} 0.07483477 
2 (whole milk, 

rolls/buns) 0.05663447 
3 (whole milk, 

yogurt] 0.05602440 
4 (root vegetables, 

whole milk 0.04890696 
5 (root vegetables, 





other vegetables) 0.04738180 
6 (other vegetables, 








yogurt } 0.04341637 
7 {other vegetables, 

rolls/buns} 0.04260295 
8 {tropical fruit, 

whole milk 0.04229792 
9 {whole milk, 

soda} 0.04006101 
10 {rolls/buns, 

soda} 0.03833249 


























RE PK, IE 2 项 集 之 间 合 并 以 形成 候选 3 项 集 。 例 如 {other vegetables,whole milk} #ll{ whole 
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milk dagli ŻW (other vegetables,whole milk,rolls/buns}。 算 法 保留 了 那些 满足 最 小 支持 度 
的 项 下 面 的 输出 显示 了 已 经 识别 出 了 2 个 频繁 3 项 集 。 


itemsets«- apriori(Groceries, parameter-list (minlen-3, maxlen-3, 
support-0.02, target="frequent itemsets")) 
parameter specification: 
confidence minval smax arem aval originalSupport support minlen 
0.8 0.1 1 none FALSE TRUE 0.02 3 
maxlen target ext 
3 frequent itemsets FALSE 


















































algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 
apriori - find association rules with the apriori algorithm 





version 4.21 (2004.05.09) (c) 1996-2004 Christian Borgelt 


set item appearances … [0 item(s)] done [0.00s]. 

set transactions …[169 item(s), 9835 transaction(s)] done [0.00s]. 
sorting and recoding items … [59 item(s)] done [0.00s]. 

creating transaction tree :* done [0.00s]. 

checking subsets of size 1 2 3 done [0.00s]. 

writing *** [2 set(s)] done [0.00s]. 

creating S4 object ** done [0.00s]. 

3 项 i 集 显 示 如 下 o 





inspect(sort(itemsets, by -"support")) 
items support 
1 (root vegetables, 
other vegetables, 
whole milk) 0.02318251 
2 (other vegetables, 
whole milk, 
yogurt) 0.02226741 





























TE RR, RA Hi 4 WR (root vegetables,other vegetables, whole milk,yogurt}, 其 
文 持 度 低 于 0.02。 没 有 找到 频繁 4 项 集 ， 算 法 收敛 。 


itemsets«- apriori(Groceries, parameter-list (minlen-4, maxlen-4, 
support-0.02, target="frequent itemsets")) 














parameter specification: 

confidence minval smax arem aval originalSupport support minlen 

0.8 9.1 1 none FALSE TRUE 0.02 4 
maxlen target ext 
4 frequent itemsets FALSE 
algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 

apriori - find association rules with the apriori algorithm 
version 4.21 (2004.05.09) (c) 1996-2004 Christian Borgelt 





5.5 ”杂货 店 交易 示例 


























set item appearances …[0 item(s)] done [0.00s]. 
set transactions …[169 item(s), 9835 transaction(s)] done [0.00s]. 
Sorting and recoding items … [59 item(s)] done [0.00s]. 
creating transaction tree :* done [0.00s]. 
checking subsets of size 1 2 3 done [0.00s]. 
writing … [0 set(s)] done [0.00s]. 
creating S4 object ** done [0.00s]. 
前 面 的 步骤 在 每 一 次 迭代 中 模拟 了 Apriori 算法 。 对 于 Groceries 数据 集 ， 当 k=4 IN, AR 























止 于 支持 度 过 低 。 因 此 ， 频 繁 项 集 包含 59 个 频繁 1 项 集 、61 个 频繁 2 项 集 ， 以 及 2 个 频繁 3 
项 集 。 

当 没有 设置 maxlen 参数 时 ,算法 继续 执行 每 次 迭代 ,直至 支持 度 过 低 或 者 直到 k 到 达 了 默 
认 的 maxlen=10。 如 下 面 的 代 输出 所 示 , 已 经 识别 出 了 122 个 频繁 项 集 。 这 与 59 个 频繁 1 项 集 、 
61 个 频繁 2 项 集 和 2 个 频繁 3 项 集 的 总 数 相符 。 


itemsets«- apriori(Groceries, parameter=list (minlen-1, support=0.02, 
target-"frequent itemsets")) 















































































































































parameter specification: 
confidence minval smax arem aval originalSupport support minlen 
0.8 Ol 1 none FALSE TRUE 0.02 1 
maxlen target ext 
10 frequent itemsets FALSE 


algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 





apriori - find association rules with the apriori algorithm 
version 4.21 (2004.05.09) (c) 1996-2004 Christian Borgelt 

set item appearances …[0 item(s)] done [0.00s]. 

set transactions …[169 item(s), 9835 transaction(s)] done [0.00s]. 
Sorting and recoding items … [59 item(s)] done [0.00s]. 

creating transaction tree ** done [0.00s]. 

checking subsets of size 1 2 3 done [0.00s]. 

writing *** [122 set(s)] done [0.00s]. 

creating S4 object … done [0.00s]. 


注意 ， 上 述 结果 是 基于 特定 的 商业 环境 ， 并 使 用 特定 的 数据 集 来 评估 的 。 如 果 数 据 集 发 9 
变化 或 者 选择 了 一 个 不 同 的 最 小 支持 度 ，Apriori 算法 必须 下 次 运行 每 次 迭代 以 更 新 频繁 项 集 。 
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5.5.3 ”规则 的 生成 和 可 视 化 


aprioriO 国 数 可 以 用 来 生成 规则 。 假 设 现 在 将 最 小 支持 度 闪 值 设置 为 一 个 较 低 的 值 0.001, 
奶 小 置信 和 度 阀 值 设 定 为 0.6。 较 小 的 最 小 支持 度 阀 值 可 以 显示 更 多 的 规则 。 下 列 的 代码 从 
Groceries 数据 集 的 所 有 交易 中 创建 了 2918 条 规则 , 而 且 这 些 规则 同时 满足 最 小 支持 度 和 最 小 
Bak. 
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rules«- apriori(Groceries, parameter=list (support=0.001, 
confidence=0.6, target = "rules")) 


parameter specification: 
confidence minval smax arem aval originalSupport support minlen 
0.6 0.1 1 none FALSE TRUE 0.001 1 
maxlen target ext 
10 rules FALSE 


algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 





apriori - find association rules with the apriori algorithm 
version 4.21 (2004.05.09) (c) 1996-2004 Christian Borgelt 


set item appearances …[0 item(s)] done [0.00s]. 

set transactions …[169 item(s), 9835 transaction(s)] done [0.00s]. 
Sorting and recoding items … [157 item(s)] done [0.00s]. 

creating transaction tree :* done [0.00s]. 

checking subsets of size 12 3 4 5 6 done [0.01s]. 

writing *** [2918 rule(s)] done [0.00s]. 

creating S4 object … done [0.01s]. 
































下 面 的 规则 汇总 显示 了 规则 的 数量 ， 以 及 支持 度 、 置 信和 度 和 提升 度 的 


summary (rules) 
set of 2918 rules 











(d 
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rule length distribution (lhs + rhs):sizes 
2 3 4 5 6 
3 490 1765 626 34 


Min. lst Qu. Median Mean 3rd Qu. Max. 
2.000 4.000 4.000 4.068 4.000 6.000 


summary of quality measures: 
support confidence lift 


Min. :0.001017 Min. :0.6000 Min. 2.348 
lst Qu. 0.001118 1st Qu. :0.6316 1st Qu. 2.668 
Median 0.001220 Median :0.6818 Median 3,168 
Mean :0.001480 Mean :0.7028 Mean 3.450 
3rd Qu. 0.001525 3rd Qu. :0.7500 3rd Qu. : 3.692 
Max. 0.009354 Max. :1.0000 Max. :18.996 


mining info: 
data ntransactions support confidence 
Groceries 9835 0.001 0.6 
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5.5 

















输入 plot(rules) 来 显示 2918 条 规则 的 散 点 医 
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占 交易 示例 
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5.3 )， 其 中 水 

















置信 度 ， 阴 影 部 分 表示 提升 度 。 散 点 图 显示 在 从 Groceries 数据 集 生 成 的 2918 条 规则 中 ， 























最 高 的 提升 度 发 生 在 一 个 较 低 支 











竺 度 和 较 低 置 信和 度 的 位 置 。 

















Scatter plot for 2918 rules 
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图 5.3 2918 条 规则 的 散 点 图 



























































0.006 


， 最 小 支持 度 为 0.001， 





0.008 


最 小 置信 度 为 0.6 
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lift 


















































输入 plot(rules@quality) 显 示 一 个 散 点 图 和 矩阵 CA 5.4 )， 然 后 对 比 2918 条 规则 的 支持 度 、 
置信 和 度 和 提升 度 。 

图 5.4 表明 提升 度 与 置信 度 是 成 正比 的 ， 还 显示 了 若干 个 线性 分 组 。 正 如 公式 5.2 和 公式 
5.3 tax, Lift=Confidevce/Support(Y). Vt, “4 Y 的 支持 度 保持 不 变 时 ， 提 升 度 和 置信 和 度 成 正 


















































的 代码 显示 ， 在 2918 条 规则 中 ， 








比 ， 线 性 趋势 的 斜率 是 Suppor NiE. ME 


有 18 个 不 同 的 人 
中 第 3 行 和 第 2 
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# compute the 1/Support (Y) 








slope<- sort (round (rules@quality$S$lift / rules@quality$confidence, 





大 部 分 发 生 在 斜率 3.91, 
列 中 显示 的 斜率 相配， 其 中 久 划 


5.17、7.17、9.17 和 9.53 


























1 
Support (Y) a 
的 位 置 。 这 与 图 5.4 
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表示 提升 度 o 





























# Display the number of times each slope appears in the dataset 


unlist (lapply (split (slope,f-slope),length)) 
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0.002 0.004 0.006 0.008 5 10 15 
图 5.4 2918 条 规则 的 支持 度 、 置 信 度 和 提升 度 的 散 点 图 矩阵 


inspectO 函 数 可 以 显示 先前 生成 的 规则 内 容 。 下 面 的 代码 显示 了 前 10 条 规则 (按照 提升 度 
排序 )。 规 则 {Instant food products,soda}— (hamburger meat} 具 有 最 高 的 提升 度 18.995654。 










































































inspect (head (sort (rules, by="lift"), 10)) 
lhs rhs 
support confidence lift 
1 (Instant food products, 
soda} => {hamburger meat} 
0.001220132 0.6315789 18.995654 
2 {soda, 
popcorn} => {salty snack} 
0.001220132 (0. 6315789 16.697793 
3 (ham, 
processed cheese) -» (white bread) 
0.001931876 0.6333333 15.045491 
4 (tropical fruit, 
other vegetables, 
yogurt, 
white bread) -» (butter) 
0.001016777 0.6666667 12.030581 
5 (hamburger meat, 
yogurt, 
whipped/sour cream} => {butter} 





5.5 ”杂货 店 交易 示例 





0.001016777 0.6250000 11.278670 
6 (tropical fruit, 

other vegetables, 

whole milk, 

yogurt, 

domestic eggs) -» (butter) 
0.001016777 0.6250000 11.278670 
7 (liquor, 

red/blush wine) => {bottled beer} 
0.001931876 0.9047619 11.235269 
8 {other vegetables, 

butter, 

sugar} => {whipped/sour cream} 
0.001016777 0.7142857 9.964539 
9 {whole milk, 

butter, 

hard cheese} => {whipped/sour cream} 
0.001423488 0.6666667 9.300236 
10 {tropical fruit, 

other vegetables, 

butter, 

fruit/vegetable juice} => {whipped/sour cream} 
0.001016777 0.6666667 9.300236 


下 面 的 代码 获取 了 置信 度 大 于 0.9 的 所 有 127 条 规则 。 


confidentRules«- rules [quality (rules)$confidence > 0.9] 
confidentRules 
set of 127 rules 


下 面 的 命令 生成 了 规则 LHS 和 RAL 相对 比 的 矩阵 可 视 化 〈 见 图 5.5 )。 右 边 的 图 例 是 一 个 
彩色 矩阵， 表示 主 矩 阵 中 每 一 个 方块 对 应 的 提升 度 和 置信 和 度 。 


plot (confidentRules, method="matrix", measure-c("lift", "confidence"), 
control-list (reorder-TRUE)) 











































































































































































































在 运行 前 面 的 plot0 命 令 时 ，R 控制 台 会 同时 显示 127 条 规则 中 LHS 和 RHS 的 区 别 列表 。 
PAS LL EL id rapi: 
输出 片段 如 下 所 示 : 
Itemsets in Antecedent (LHS) 
1] "(citrus fruit,other vegetables,soda,fruit/vegetable juice)" 
2] "(tropical fruit,other vegetables,whole milk,yogurt,oil)" 
3] "(tropical fruit,butter,whipped/sour cream,fruit/vegetable 
juice)" 


4] "(tropical fruit,grapes,whole milk, yogurt}" 
5] "(ham,tropical fruit,pip fruit,whole milk)" 





[124] "(liquor,red/blush wine)" 

Itemsets in Consequent (RHS) 

[1] "(whole milk)" "{yogurt}""{root vegetables)" 
[4] "(bottled beer)" "(other vegetables}" 
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127 条 规则 生成 的 矩阵 
E 10 
5 bn 8 
6 
4 4 
092 096 1 
置信 度 
3 
Ed 
iz 
2 
1 
20 40 60 80 100 120 
前 驱 (LHS) 


图 5.5 LHS 和 RHS 中 的 矩阵 可 视 化 ， 使 用 提升 度 和 置信 度 进行 了 填 色 


下 面 的 代码 提供 了 有 具有 最 大 提升 度 的 前 5 条 规则 的 可 视 化 ， 如 图 5.6 所 示 。 在 图 中 ， 箭 头 
总 是 从 LHS 的 一 个 项 目 指向 RHS 的 一 个 项 目 。 例如， 连接 火腿 、 加 工 奶酪 和 白色 面包 的 箭头 
表示 规则 {ham,processed cheese} 一 {white bread}. 图 右上 角 的 图 例 显 示 圆 的 大 小 表示 规则 的 支持 
度 ， 其 范围 为 0.001 一 0.002; 颜色 (或 阴影 ) 表示 提升 度 ， 范 围 为 11.279 一 18.996。 具 有 最 高 提 
升 度 的 规则 是 {Instant food products,soda} — {hamburger meat}. 

















































































































































































































































































































SAME 大 小 : 支持 度 (0.001 一 0.002) 
颜色 : 提升 度 (1.279 一 18.996) 


tropical fruit 


other Vegetables 
processed cheese 
white bread 
butter 


ham yogurt 
whipped/sour cream 


popcorn hamburger meat 


salty snack | 


Instant food products 


图 5.6 前 5 条 规则 的 可 视 化 图 形 ( 规则 按照 提升 度 来 排序 ) 

















5.7 诊断 





highLiftRules «- head(sort(rules, by="lift"), 5) 
plot(highLiftRules, method-"graph", control-list (type-"items")) 


5.6 ”验证 和 测试 
在 收集 输出 规则 之 后 ， 可 能 有 必要 使 用 一 种 或 多 种 方法 ， 以 在 业务 环境 中 验证 样 
集 的 结果 。 第 一 种 方法 可 以 通过 置信 和 度 、 提 升 度 和 杜 杆 率 之 类 的 统计 度量 来 建立 。 妇 
涉及 互相 独立 的 项 目 或 涵盖 极 少数 交易 ， 则 被 认为 是 无 趣 的 ， 因 为 它们 捕捉 到 的 可 外 
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在 第 5.3 节 提 到 ， 置 信 度 可 以 测量 X 和 了 一 起 出 现 的 概率 与 X 出 现 的 概率 的 相关 性 (BH X 
和 YY 一 起 出 现 的 概率 与 X 出 现 的 概率 ， 这 两 者 的 比值 )。 置 信 度 可 用 于 识别 规则 的 有 趣 度 。 
提升 度 和 杠杆 率 都 可 以 将 X 和 YY 的 支持 度 与 它们 各 自 的 支持 度 进 行 比较 。 在 使 用 关联 规则 
挖掘 数据 时 ， 一 些 规则 的 生成 可 能 是 纯 属 巧合 。 例 如 ， 如 果 95% 的 客户 购买 X，90% 的 客户 购 
KY, 那么 X 和 Y 会 同时 发 生 的 可 能 性 至 少 为 85%， 即 使 这 二 者 之 间 没 有 任何 关系 。 类 似 提 升 
度 和 杠杆 率 之 类 的 度量 可 以 确保 识别 有 趣 的 规则 ， 而 非 巧合 的 规则 。 
可 以 通过 主观 参数 来 建立 另 一 组 标准 。 即 使 有 较 高 的 置信 度 ， 可 以 从 主观 上 认为 一 条 规则 
是 无 趣 的 , 除非 它 揭示 了 任何 非 预 期 的 县 利 行为 。 例 如 , 像 {paper} 一 {pencil} 这 样 的 规则 在 主观 
可 能 是 无 趣 或 者 没有 意义 的 ， 尽 管 它 的 支持 度 和 置信 度 很 高 。 与 此 相反 ， 像 {diaper} 一 {beer} 
这 样 的 规则 满足 了 最 小 支持 度 和 最 小 置信 和 度 ， 就 可 以 在 主观 上 认为 是 有 趣 的 ， 因 为 这 条 规则 帮 
非 预 期 的 ， 可 能 会 给 零售 商 提 供 一 个 交叉 销售 的 机 会 。 将 主观 意识 掺 入 到 规则 评价 中 是 一 项 
难 的 任务 ， 它 需要 与 领域 专家 合作 。 在 第 2 章 中 提 到 ， 领 域 专家 可 以 充当 数据 科学 团队 中 的 企 
业 用 户 或 商业 智能 分 析 师 。 在 第 5 阶段 ， 团 队 可 以 沟通 结果 ， 并 决定 是 否 适 合 实施 。 
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5.7 诊断 


虽然 Apriori 算法 非常 容易 理解 和 实现 , 但 是 产生 的 一 些 规则 是 无 趣 的 或 者 几乎 没有 用 。 此 
外 ， 也 有 可 能 会 因为 变量 之 间 存 在 的 巧合 关系 ， 而 生成 一 些 规则 。 像 置信 度 、 提 升 度 和 杠杆 率 
这 样 的 度量 应 该 与 人 们 主观 的 见解 一 起 使 用 ， 以 解决 这 个 问题 。 

关联 规则 的 男 一 个 问题 是 , 在 数据 分 析 生 命 周期 的 第 3 阶段 和 第 4 阶段 ( 见 第 2 E), 团队 
在 执行 模型 之 前 必须 指定 最 小 文 持 度 ， 这 可 能 会 导致 大 多 或 太 少 的 规则 。 在 相关 的 研究 中 ， 有 
一 种 算法 的 变 体 [13] 可 以 为 生成 规则 的 数量 设 定 一 个 预定 义 的 目标 范围 , 以 便 算 法 能 够 相应 地 调 
















































































































































































































































































































































































































































































第 5.2 节 讲 到 了 Apriori 算法 ， 这 是 用 来 生成 关联 规则 的 一 种 最 早 和 最 基础 的 的 算法 。 通 过 
只 检查 满足 了 最 小 冰 值 的 项 集 , Apriori 算法 可 以 减少 计算 量 。 然 而 , 取决 于 数据 集 大 小 , Apriori 
算法 可 以 是 计算 代价 昂贵 的 。 对 于 每 一 个 级 别 的 支持 度 ， 该 算法 需要 扫描 整个 数据 库 以 获得 结 
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有 一 些 方法 可 以 




















果 。 因 此 ， 随 着 数据 库 的 增长 ， 它 在 每 次 运行 计算 时 会 需要 更 多 的 时 间 。 这 是 
提高 Apriori 的 效率 。 
e 分 区 : 交易 数据 库 中 任何 可 能 的 频繁 项 集 必 须 在 至 少 一 个 交易 数据 库 的 分 区 中 是 频繁 
e 采样 : 用 较 低 支持 度 阔 值 提 取 数 据 集 的 一 个 子 集 ， 然 ) ] 子 集 来 执行 关联 规则 挖 于 
e 交易 压缩 : 不 包含 频繁 k 项 集 的 交易 在 后 续 扫 摘 中 是 无 用 的 ， 因 此 可 以 忽略 。 
e 基于 哈 希 的 项 集 计 数 : 如 果 一 个 k 项 集 相应 的 哈 斋 桶 计数 低 于 某 一 网 值 ， 则 该 k 项 集 
不 可 能 是 频繁 的 。 
e 动态 项 集 计 数 : 只 添加 所 有 子 集 都 被 估计 为 频繁 项 集 的 项 集 作为 新 的 候选 项 集 。 





mE 















































c— 





























Fell cT 
o 


o 



























































È 












































































































































































































































5.8 总 结 


作为 一 项 发 现 项 目 之 间 关 系 的 无 监督 分 析 技 术 ， 关 联 规则 在 许多 活动 中 颇具 用 途 ， 其 中 包 
舌 购 物 复 分析、 点 击 流 分 析 和 推荐 引擎 。 虽 然 关 联 规则 不 用 于 预测 结果 或 行为 ， 但 是 它们 善于 
从 大 型 数据 集中 识别 项 目 之 间 “ 有 趣 的 ”关系 。 很 多 时 候 ， 关 联 规 则 所 披露 的 关系 可 能 不 那么 
明显 ， 因 此 ， 这 为 机 构 提供 了 有 价值 的 见解 ， 可 以 帮助 提升 其 业务 运营 。 

Apriori 算法 用 来 生成 规则 的 是 最 早 和 最 基础 的 一 种 算法 。 本 章 使 用 一 个 杂货 店 的 例子 遍历 
了 Apriori 的 步骤 ,并 生成 了 频繁 项 集 和 有 用 的 规则 以 用 于 下 游 分 析 和 可 视 化 。 同 时 ， 本 章 还 
介绍 了 几 个 度量 ， 比 如 支持 度 、 置 信 度 、 提 升 度 和 杠杆 率 。 这 些 度量 有 助 于 识别 有 趣 的 规 见 
消除 巧合 规则 。 最 后 ， 本 章 讨 论 了 Apriori 算法 的 一 些 优点 和 缺点 ， 并 罗列 了 可 以 提升 其 效率 日 
m 
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5.9 练习 


1. Apriori 属性 是 什么 ? 
2. WAR 5 个 交易 ， 包 括 项 目 A、B 、C 和 D: 
e T1:{ ABC } 
T2:{A,C} 
T3:( B,C } 
T4 :( A.D } 
€ T5:( ACD) 
哪些 项 集 满足 最 小 支持 度 0.5? ( 提示: 一 个 项 集 可 能 包含 多 个 项 目 ) 
3， 如 何 识别 有 趣 的 规则 ? 如 何 区 分 有 趣 规则 和 巧合 规则 ? 
4. 一 个 本 地 零售 商 有 一 个 数据 库 ， 存储 了 去 年 夏天 的 10000 条 交易 。 分 析 数 据 后 ， 数 据 科 
学 家 团队 已 经 识别 出 了 以 下 统计 : 
€ {battery} 在 6000 笔 交 易 中 出 现 。 



















































































































































































参考 书目 


{sunscreen} E 5000 笔 交 易 中 出 现 。 
{sandals} 4t 4000 笔 交 易 中 出 现 。 
(bowls) 2000 笔 交 易 中 出 现 。 

{ battery, sunscreen HÆ 1500 笔 交 易 中 出 现 。 
{battery，sandals} 在 1000 笔 交 易 中 出 现 。 
{fbattery，bowls} 在 250 笔 交 易 中 出 现 。 
{battery，sunscreen，sandals} 在 600 笔 交 易 中 出 现 。 
答 下列 问 题 。 

a，、 上 面 项 集 的 文 持 度 是 多 少 ? 

b. 假设 最 小 支持 度 为 0.05， 哪 些 项 集 可 以 认为 是 频繁 的 呢 ? 
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c. (battery }—{sunscreen} fll ( battery,sunscreen }—> {sandals} HJ Pi faker HISD? 哪 条 规则 
EE 更 有 趣 的 呢 ? 

d. 列 出 从 统计 中 可 以 生成 的 所 有 候选 规则 。 在 最 小 置信 度 为 0.25 时 , 哪些 规则 是 有 趣 的 ? 
在 这 些 有 趣 规则 中 ， 哪 些 规则 是 最 有 用 的 ( 即 最 不 巧合 的 ) 呢 ? 
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线性 回归 

逻辑 回归 

普通 最 小 二 乘法 (OLS) 
接收 者 操作 特征 (ROC ) 曲线 
残 差 
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总 的 来 说 ， 回 归 分 析 试 图 解释 一 组 变量 对 另外 一 个 变量 的 结果 的 影响 。 通 常情 况 下 ， 结 果 
变量 叫做 因 变 量 ( dependent variable )， 因 为 它 的 结果 依赖 于 其 他 变量 。 这 些 其 他 变量 有 时 候 会 
被 叫做 输入 变量 (input variable ) 或 者 自 变 量 (independent variable )。 回 归 分 析 可 以 用 来 回答 下 







































































列 问题 : 
e ”人们 的 期 望 收入 是 多 少 ? 
e 贷款 申请 人 拖欠 还 款 的 概率 有 多 少 ? 
避 答 第 一 个 问题 的 有 用 工具 ， 而 逻辑 回归 是 解决 第 二 个 问题 的 流行 方法 。 本 音 
将 研究 这 两 种 回归 技术 ， 解释 一 种 技术 在 何 时 会 更 比 另外 一 种 更 合适 。 
可 归 分 析 是 一 种 有 用 的 解释 工具 , 可 以 识别 对 结果 有 着 最 大 的 统计 影响 的 输入 变量 。 通 
过 这 类 知识 与 洞察 ,可 以 尝试 改变 环境 ,以 产生 更 有 利 的 输入 变量 的 值 。 例 如 ， 如 果 研 究 发 
BL 10 岁 学 生 的 阅读 水 平 对 于 学 生 在 高 中 的 学 习 和 申请 大 学 的 成 功 与 否 是 一 个 极 佳 预测 指 
标 ， 那 么 阅读 能 力 会 获得 更 多 的 重视 、 实 施 和 评估 ， 让 学 生 在 年 龄 更 小 的 时 候 就 开始 增强 阅 






















































































Md 
xv 
HF 
H 
EE 
H 









































































































































































































































































































































































































































































































































6.1 线性 回归 


线性 回归 是 一 种 用 来 对 若干 输入 变量 与 一 个 连续 结果 变量 之 间 关 系 建 模 的 分 析 技 术 。 而 其 
中 一 个 关键 假设 是 一 个 输入 变量 与 结果 变量 之 间 的 关系 是 线性 的 。 尽管 这 种 假设 看 起 来 很 局 限 ， 
但 我 们 经 常 能 适当 转换 输入 变量 或 结果 变量 ， 以 实现 转换 后 的 输入 变量 与 结果 变量 之 间 的 线性 
关系 。 这 些 转 换 技术 将 在 本 章 后 续 详 细 介绍 。 
物理 学 中 有 着 一 些 著名 的 线性 模型 ， 例 如 欧姆 定律 (Ohm's Law )， 即 流 过 电阻 的 电流 与 电 
路 中 的 电压 成 正比 。 这 种 模型 被 认为 是 确定 性 的 ， 也 就 是 说 ， 如 果 输 入 的 值 是 已 知 的 ， 那 么 结 

变量 的 值 也 能 够 精确 确定 。 线 性 回归 模型 是 基于 概率 的 ， 以 解释 可 以 影响 任何 特定 结果 的 随 
机 性 。 基 于 已 知 的 输入 值 ， 线 性 回归 模型 提供 了 结果 变量 的 预期 值 ， 但 是 预测 结果 仍然 可 能 存 
在 某 些 不 确定 性 。 因 此 ， 线 性 回归 模型 在 物理 学 和 社会 科学 应 用 中 很 有 用 。 在 这 些 领 域 中 ， 给 
定 一 组 特定 的 输入 值 ， 其 产生 的 结果 可 能 会 有 相当 大 的 不 同 。 在 介绍 完 线性 回归 的 用 例 之 后 ， 
本 节 会 讲解 线性 回归 建 模 的 模型 基础 。 
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6.1.1 用 例 


线性 回归 通常 用 于 商业 、 政 府 和 其 他 的 场景 中 。 现 实 世 界 中 一 些 常 见 的 实际 线性 
如 下 所 示 : 
e 房地产 : 可 以 使 用 一 个 简单 的 线性 回归 分 析 模 型 ， 将 住宅 价格 建 模 为 以 住宅 区 域 为 参 

数 的 函数 。 这 种 模型 可 以 帮助 设 定 或 者 评估 市 场 上 住宅 的 价格 。 模 型 还 可 以 包括 其 他 

的 输入 参数 ， 例 如 浴室 的 数量 、 卧 室 的 数量 、 地 皮 尺 寸 ， 以 及 学 区 排名 、 犯 罪 率 统计 
























































E 

















归 应 用 
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[房产 税 等 来 进一步 优化 。 
o 需求 预测 ;政府 与 企业 可 以 利用 线性 回归 模型 来 预测 货物 与 服务 的 需求 。 例 如 ， 餐 厅 

可 以 根据 天 气 、 星 期 几 、 特 价 商品 、 一 天 中 的 时 间 段 以 及 餐厅 预定 量 来 合理 地 预测 与 
准备 顾客 会 消费 的 食物 类 型 与 数量 。 类 似 的 模型 可 以 用 来 预测 零售 额 、 急 诊 人 数 和 救 
"ri. 
e 医疗 : APENRE NARRAR. ARE 
括 单 次 放射 治疗 的 时 长 、 放 射 治疗 的 频率 ， 以 及 年 中 与 体重 等 患者 属性 。 
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6.1.2 ”模型 描述 
顾名思义 ， 线性 H 


通过 公式 6.1 来 表示 。 
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了 模型 假设 在 输入 变量 与 结果 变量 之 间 存 在 线性 的 关系 。 这 种 关系 可 以 



























































y = b + 8x x H-t oe, a tE (6.1) 
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y 表示 结果 变量 ; 
已 是 输入 变量 ，7 = 1.2,…, pl; 
PEHIA y BETER y 的 值 ; 
BIE y TREY x; RICER, H j=1,2,3,..., p-1« 
a 是 一 个 随机 的 误差 项 ， 表 示 线 性 模型 输出 与 y 的 实际 观察 值 之 间 的 差 值 。 
假设 需要 建立 一 个 线性 回归 模型 ， 将 一 个 人 的 年 收入 看 作 两 个 输入 变量 ( 年 龄 [age] 和 教育 
[education], ， 以 年 为 单位 ) 的 函数 ,来 估计 其 收入 。 在 这 个 案例 中 , 收入 是 一 个 结果 变 旧 
变量 是 年 龄 与 教育 。 尽 管 可 能 过 于 泛 化 ， 这 个 模型 在 直观 上 似乎 是 正确 的 ， 因 为 人 们 的 技能 和 
经 验 随 年 龄 提升 ， 个 人 收入 也 理应 相应 增加 。 此 外 ， 那 些 受 教育 程度 更 高 的 人 获得 雇佣 的 机 会 
与 起 始 薪水 也 会 更 高 。 


然而 ， 同 样 很 明显 的 是 ， 一 组 有 相同 年 龄 与 相同 受 教 育 水 平 的 人 的 收入 也 存在 着 相当 大 的 
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差异 。 ax 2587; 异 在 模型 中 ARTI o 办 Hi 在 这 个 例子 中 ， 模型 公式 0.2 所 表示 。 
Income = b, + B, Age + B, Education + € (6.2) 












































在 这 个 线性 模型 中 ，C 表示 未 知 的 p 参数 。 这 些 未 知 参 数 的 取 值 要 让 模型 能 根据 年 龄 与 教 
育 对 个 人 收入 提供 一 个 平均 意义 上 的 合理 的 估算 。 换 名 话说 ， 拟 合 得 出 的 模型 需要 将 线性 模型 
5 实际 观察 值 之 间 的 总 体 误差 降 至 最 低 。 普 通 最 小 二 乘法 (Ordinary Least Squares, OLS ) 是 一 
种 估算 p 参数 取 值 的 常见 技术 。 
为 了 说 明 OLS 是 如 何 工作 的 ， 假 设 针对 结果 变量 y 只 有 一 个 输入 变量 x。 此 外 , 图 6.1 中 
ERTE, VAI n 个 观测 值 。 
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图 6.1 yy 与 x 的 散 点 图 






















































































我 们 的 目标 是 找到 最 接近 结果 变量 与 输入 变量 之 间 关 系 的 一 条 直线 。 借 助 于 OLS， 目 标 变 


成 找到 通过 这 些 点 的 直线 ， 使 得 每 个 点 与 这 条 直线 在 垂直 方向 的 差 值 的 平方 和 最 小 。 换 名 话说 ， 
RAT Bo FB 的 值 ， 使 得 公式 6.3 中 的 总 和 最 小 。 


































































































nb, - (8, + Bx) (6.3) 


图 6.2 中 显示 了 将 被 平方 然后 相 加 的 n 个 个 体 距 离 。 
ESE y = Bo + Bi ZARIA. 
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垂直 的 线段 代表 每 个 观测 到 的 y 
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图 6.2 yy 与 x 的 散 点 图 ， 其 中 包含 了 观测 点 到 拟 合 线 的 垂直 距离 
























































在 第 3 章 的 图 3.7 中 ， 安 斯 库 姆 四 重奏 ( Anscombe's Quartet ) 的 例子 使 用 了 OLS 来 对 4 个 
数据 集中 的 每 一 个 进行 线性 回归 拟 合 。 多 个 输入 变量 的 OLS 就 是 对 公式 6.3 中 的 单个 输入 变 
的 情况 进行 直接 扩展 。 

上 述 的 讨论 中 提供 了 在 一 组 观测 值 中 找到 最 佳 线性 拟 合 的 方法 。 然 而 ， 通 过 对 误差 项 做 
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些 额 外 假设 ， 线 性 回归 模型 能 被 进一步 地 利用 。 一 般 来 说 ， 我 们 几乎 一 直 在 做 这 样 的 假设 ， 所 
以 按 下 来 的 模型 都 被 简称 为 线性 回归 模型 。 


1. 线性 回归 模型 人 

在 之 前 的 模型 描述 中 , 是 没有 关于 误差 项 的 假设 的 ; OLS 不 需要 额外 的 假设 来 估算 模型 参 
数 。 然 而 ， 在 大 多 数 的 线性 回归 分 析 中 ， 普遍 假设 误差 项 是 均值 为 零 日 方差 恒定 的 正 态 分 布 的 
随机 变量 。 因 此 ， 线 性 回归 模型 如 公式 6.4 所 示 。 

Y = bo 89 e Xt Bp ux FE (6.4) 
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y 表示 结果 变量 ; 


已 是 输入 变量 ，j = 1,2,.…., pl; 
DEIA x BETER y 的 值 ; 
户 是 y 基于 每 个 x 单元 变化 的 变化 量 , j=1,2,.….,p-1; 
e 一 N(0,0”))， 以 及 ge 相互 独立 。 
对 于 给 定 的 《xi, x2,…xp1 )， 这 个 额外 的 假设 对 于 y 的 期 望 值 ECy) 产 生 了 以 下 的 结果 : 
E(y) = E(B + 6x + bX + Bpa Xp +) 
= ba 4- B,x, + 8X7. Bipi + E(e) 
= 0, 4 B,x, + 0,x,... B tua 
因为 入 是 常量 , 因此 E(y) 是 线性 回归 模型 对 于 给 定 的 (x, xo. x94? 产生 的 结果 值 。 此 
外 ， 对 于 给 定 的 (x.x), y 的 方差 Vy) 如 下 : 
VQ) =V (bo + By, + 62x3. B, x, 4 +E) 
=0+V(e)=0° 
因此 , 对 于 给 定 的 (x, pt) y 是 以 fr Bixit Bxx2.….+ By-1xp1 为 均值 和 以 0° 为 方差 的 正 




















































































































































































































































































































































































































































































































态 分 布 。 对 于 一 个 只 有 单个 输入 变量 的 回归 模型 , 图 6.3 说 明了 在 给 定 x 值 的 情况 下 , 误差 值 的 
正 态 假设 (Normality Assumption )， 以 及 其 对 结果 变量 y 的 影响 。 
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图 6.3 ”对 于 给 定 的 x 值 ，y 的 正 态 分 布 
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x-8 的 时 候 ， 预 期 的 观测 值 y 接近 20， 但 是 基于 图 中 的 正 态 分 布 ，y 的 值 也 可 能 会 出 现 
Æ 15~25 之 间 。 因 此 ， 回 归 模 型 会 估计 在 给 定 x 值 时 ，y 值 的 期 望 值 。 此 外 ， 误 差 项 的 正 态 分 
布 假设 提供 了 一 些 有 用 的 属性 以 用 于 对 线性 回归 模型 执行 假设 检验 ， 和 用 于 提供 参数 的 置信 区 
间 以 及 给 定 Co, zz) 时 y 的 均值 。 这 些 统计 技术 的 应 用 可 以 通过 将 R 应 用 到 先前 介绍 的 收 
入 线性 回归 模型 来 演示 。 


2. R 代码 示例 

可 到 Income 的 示例 ， 除 了 年 龄 与 教育 变量 之 外 ， 人 的 性 别 (女性 或 者 男性 )， 也 被 当做 
个 输入 变量 。 以 下 的 代码 会 从 CSV 文件 中 读 取 1500 个 人 的 收入 、 年 龄 、 教 育 年 限 和 性 别 。 前 
10 行 的 显示 如 下 。 
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income_input = as.data.frame( read.csv("c:/data/income.csv") ) 
income input[1:10,] 


ID Income Age Education Gender 








1 l. :213 369 12 1 
2 2 9 52 18 0 
3 3- 012 65 14 0 
4 4 8 58 12 0 
5 9 68 31 16 1 
6 6 92- 51 15 1 
7 7 75 53. 15 0 
8 8 76 56 13 0 
9 9 56 42 T5 1 
10 10 53. .33 1 
























































这 个 抽样 中 的 每 个 人 都 分 配 了 一 个 识别 号 码 ID. Income 以 千 美 元 为 单位 ( 例如，113 表示 
$113,000 )。 前 面 讲 到 ，Age 和 Education 以 年 来 表示 。 对 于 Gender, 0 表示 女性 ，1 表示 男性 。 
导入 数据 的 汇总 显示 了 收入 在 $14,000 一 $134,000 内 变化 。 年 龄 的 区 间 是 18~70 岁 。 每 个 人 的 
教育 经 历 从 最 小 10 年 到 最 大 20 年 不 等 。 


summary (income_input) 
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ID Income Age Education 


Min. : 1.0 Min. : 14.00 Min. :18.00 Min. :10.00 
lst Qu. s 375.8. lst .Qu. : 62.00 1st Qu. :30.00 1st Qu. 212:00 
Median : 750.5 Median : 76.00 Median :44.00 Median :15.00 
Mean : 750.5 Mean : 75.99 Mean :43.58 Mean :14.68 
3rd Qu. :1125.2 3rd Qu: 291.00 3rd Qu. :57.00 3rd Qu. :16.00 
Max. :1500.0 Max. :134.00 Max. :70.00 Max. :20.00 
Gender 
Min. :0.00 
1st Qu. 0.00 
Median :0.00 
Mean 10.49 
3rd Qu. 1.00 
Max 1.00 


6.1 线性 回归 















































如 第 3 章 中 所 述 ， 散 点 图 矩阵 是 一 个 用 来 查看 变量 闻 成 对 关系 的 信息 工具 。 而 线性 回归 中 
的 一 个 基本 假设 就 是 结果 变量 与 输入 变量 间 存 在 着 线性 的 关系 。 使 用 R BJ lattice 工具 包 ， 以 下 
R 代码 生成 图 6.4 的 散 点 图 矩阵 。 
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Scatter Plot Matrix 





图 6.4 Rea Aes 








library (lattice) 

splom(~income_input[c(2:5)], groups=NULL, data-income input, 
axis.line.tck = 0, 
axis.text.alpha = 0) 


由 于 因 变 量 通常 作为 y 轴 ， 检 查 沿 着 矩阵 底部 的 一 组 散 点 。 当 Income 作为 Age 的 函数 时 , 
观察 到 一 个 很 强 的 的 正 线 性 趋势 。 反 观 Income 作为 Education 的 函数 时 ， 可 能 存在 一 个 轻微 的 
IBA, (AS Age 相 比 这 个 趋势 不 是 很 明显 。 最 后 ，Gender 对 于 Income 则 没有 明显 的 影响 。 

通过 对 Income 与 输入 变量 之 间 的 关系 的 定性 理解 , 定量 地 评估 关于 这 些 变量 的 线性 关系 似 
乎 是 合理 的 。 利 用 关于 误差 项 的 正 态 假设 ， 提 出 的 线性 回归 模型 如 公式 6.5 所 示 。 
Income = f, + 8, Age + B, Education + B,Gender + € (6.5) 





























































































































































































































第 6 章 高 级 分 析 理 论 与 方法 : 回归 























应 用 R 中 线性 模型 函数 1m0 所 建立 的 收入 模型 如 下 所 示 。 


results <- lm(Income-Age + Education + Gender, income input) 
summary (results) 








Call: 
lm(formula = Income ~ Age + Education + Gender, data = income input) 


Residuals: 
Min 1Q Median 3Q Max 
=37 340. -8.101..0.139 7.8B5.237.271 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 7.26299 1.95575 3.714 0.000212 *** 


Age 0.99520 0.02057 48.373 « 2e-16 *** 

Education 1.75788 0.11581 15.179 « 2e-16 *** 

Gender -0.93433 0.62388 -1.498 0.134443 

Signi. codes. y Cx***v«09:3001. VARY HOR OT PAULO OS TUO * Gb 


Residual standard error: 12.07 on 1496 degrees of freedom 
Multiple R-squared: 0.6364, Adjusted R-squared: 0.6357 
F-statistic: 873 on 3 and 1496 DF, p-value: < 2.2e-16 


AGE (Intercept) 项 名 被 隐 式 地 包含 在 模型 中 。 在 这 个 示例 中 ，lm0 函 数 使 用 普通 最 小 二 乘 
法 对 参数 BG = 0, 1,2, 3) 进 行 估算 ， 并 提供 几 种 有 用 的 计算 及 结果 ， 将 其 存储 在 results 变量 中 。 
在 调用 Im0 以 后 ， 输 出 结果 中 包含 若干 关于 残 差 的 统计 数据 。 和 残 差 是 n 个 结果 观测 值 中 每 
一 个 的 误差 项 的 观测 值 ， 当 i = 1, 2, .na 时 ， 残 差 的 定义 如 公式 6.6 所 示 。 
e, = y; — (b, th POM oie HO, V) (6.6) 
[中 bj; 表示 参数 的 估算 值 , j=0, 1,2,...p-1。 
M R 的 输出 来 看 ， 残 差 在 大 约 -37 一 +37 之 间 变 化 ， 中 位 数 接近 0。 前 面 讲 到 ， 残 差 被 假定 
为 均值 为 零 和 方差 恒定 的 正 态 分 布 。 正 态 假 设 将 在 后 文中 更 详细 地 讲解 。 
hs 中 提供 了 关于 系数 的 细节 。Estimate 列 提供 了 拟 合 出 的 回归 模型 中 的 系数 的 OLS 估算 。 
































































































































































































































































































































































































































































































































































































































































































































































































































































































































况 下 , BUB (Intercept ) 对 应 的 是 在 所 有 输入 变量 等 于 0 时 结果 值 的 估算 。 在 这 个 示例 中 ， 
iux 的 是 一 个 未 受 教育 的 新 生 女 性 (newborn female ) 的 预 估 收入 值 $7,263。 需 要 重点 指出 
的 是 ， 现 有 的 数据 集中 并 不 包括 这 样 的 人 。 数 据 集中 最 小 的 年 龄 和 受 教 育 年 限 分 别 是 18 ZI 
10 年 。 因 此 ， 当 使 用 线性 回归 模型 针对 模型 训练 数据 集中 不 具 代表 性 的 输入 变量 预测 结果 时 , 



























































可 能 会 得 到 有 误导 性 的 结果 。 
Age 的 系数 接近 于 1， 这 个 系数 的 解释 如 下 : 年 龄 每 增加 一 岁 ， 个 人 收入 预计 将 增加 $995。 

教育 年 限 每 增加 一 年 ， 个 人 收入 预计 增加 大 约 $1,758。 

对 Gender 的 系数 的 解释 稍微 有 一 些 区 别 。 当 Gender 等 于 0 的 时 候 ，Gender 系数 对 于 预期 

收入 的 预测 没有 贡献 。 当 Gender 等 于 1 的 时 候 ， 预 期 的 Income 则 会 下 降 大 约 $934。 

因为 系数 值 是 仅仅 基于 样本 中 的 观测 收入 来 估算 得 到 的 ， 因 此 系数 的 估算 可 能 存在 一 些 不 
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Í 羊 误 差 。 系 数列 右边 的 Std.Error ( 标准 误差 ) 列 提供 了 每 个 系数 相关 的 抽样 
误差 ， 可 以 用 来 使 用 工分 布 Ct-distribution ) 执行 假设 检验 ， 以 确定 每 个 系数 是 否 在 统计 意 
义 上 不 为 零 。 换 名 话说 ， 如 果 一 个 系数 在 统计 意义 上 等 于 零 ， 则 模型 中 的 系数 与 相关 的 变量 就 
应 该 从 模型 中 排除 。 在 这 个 示例 中 ， 对 于 Intercept. Age 和 Education 参数 ， 相 应 的 假设 检验 的 
P 值 Pr 上 0D 很 小 。 如 第 3 章 中 所 说 ， 较 小 的 p 值 对 应 的 是 , t 值 可 以 在 原 假设 E null hypothesis ) 
情况 下 观测 到 的 概率 较 小 。 这 种 情况 下 ,对 于 给 定 的 j=0, 1,2, …,p-1， 原 假设 和 备 择 假设 如 下 
















































































































































































































































































































































































































































































Ho:B=0 与 有 AD 天 0 
对 于 较 小 的 p 值 ， 像 Intercept、Age 和 Education 参数 的 情况 ， 原 假设 将 会 被 否定 。 对 了 
Gender S 相应 的 p 值 相当 大 ,为 0.13。 换 名 话说 ， 在 90% 的 置信 水 平 ， 原 假设 是 不 会 被 否 
ZENS. AE, 可 以 考虑 把 Gender 变量 从 线性 回归 模型 中 去 除 。 下 面 的 R 代码 提供 了 修改 后 的 模 
型 结果 。 


results2 «- lm(Income ~ Age + Education, income input) 
summary (results2) 


























































































































































































































IT 





















































Call: 
lm(formula = Income ~ Age + Education, data = income input) 


Residuals: 
Min 1Q Median 3Q Max 
-36.889 -7.892 0.185 8.200 37.740 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 6.75822 1.92728 3.507 0.000467 *** 
Age 0.99603 0.02057 48.412 « 2e-16 *** 
Education 1.75860 0.11586 15.179 < 2e-16 *** 


Signif..codess- Q TY***t*9.00L.TU**tug.0L '"*" 0:05 *.* OVL.' T 


Residual standard error: 12.08 on 1497 degrees of freedom 
Multiple R-squared: 0.6359, Adjusted R-squared: 0.6354 
F-statistic: 1307 on 2 and 1497 DF, p-value: « 2.2e-16 


从 模型 中 去 除 Gender 变量 这 一 做 法 对 剩余 参数 的 估算 以 及 它们 的 统计 意义 几乎 没有 影响 。 

显示 结果 中 的 最 后 部 分 提供 了 关于 线性 回归 模型 的 一 些 汇总 统计 和 测试 。 标 准 化 残 差 
(residual standard error ) 是 观测 残 差 的 标准 偏差 。 这 个 值 以 及 相关 的 自由 度 ， 可 以 用 来 审查 假定 
的 正 态 分 布 的 误差 项 方差 。R-squared(R”) 是 一 个 常用 的 报告 度量 (reported metric )， 用 来 衡量 线 
性 回归 模型 解释 数据 时 的 偏差 。R? 的 取 值 范围 为 0~1， 越 接近 于 1 表示 模型 可 以 更 好 地 解释 数 
io RO 正好 等 于 1 表示 模型 完美 地 解释 了 观测 数据 (所 有 的 残 差 值 等 于 0 )。 一 般 情况 下 ， 可 以 
通过 在 模型 中 添加 更 多 的 变量 来 增 大 R^ 的 值 。 然 而 ， 只 添加 更 多 的 变量 来 解释 给 定 的 数据 集 ， 
但 
yi 


























































































































































































































































































































































































































































































































































































































是 不 提升 模型 的 解释 性 ， 则 被 称 为 过 度 拟 合 〈 overfitting )。 为 了 解决 过 度 拟 合 数据 的 可 能 性 ， 
调整 后 的 R 考虑 了 线性 回归 模型 中 包含 的 参数 数量 。 
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F 统计 (F-statistic ) 提供 了 一 种 方法 用 来 测试 整个 回归 模型 。 在 前 面 { 检 验 (t-test) 中 ,进行 

个 体检 验 是 为 了 确定 每 个 参数 的 统计 意义 。 而 F 统计 和 相应 的 p 值 则 允许 分 析 员 检验 如 下 假设 。 
Ho: fi ffo-...—,4,-0 与 Ha:PB1 #0 
j=1,2,...p-1 (至 少 为 1) 

在 这 个 例子 中 ，p 值 很 小 ， 为 2.2e-16， 表 示 原 假设 应 该 被 否定 。 
3. 分 类 变量 
在 之 前 的 示例 中 , 变量 Gender 是 一 个 表示 某 人 是 男性 还 是 女性 的 简单 二 元 变量 ,一般 来 说 ， 
这 些 变量 称 为 分 类 变量 (categorical variable )。 为 了 说 明 如 何 正确 地 使 用 分 类 变量 ,我 们 假设 在 
前 面 的 Income 例子 中 决定 包含 额外 的 变量 State， 用 来 表示 人 所 在 美国 的 放 使 用 Gender 变 
量 类 似 , 一 种 可 能 但 不 正确 的 方法 是 在 包含 State 变量 时 ,用 0 对 应 阿拉 巴 马 ( Alabama, )、1 对 
应 阿拉 斯 加 (Alaska, )、2 对 应 亚利桑那 (Arizona )， 等 等 。 这 种 基于 州 名 的 字母 排序 来 分 配 数 
字 的 方法 的 问题 在 于 它 没 有 为 不 才 应 的 数字 间 的 差 值 提供 有 意义 的 度量 。 例 如 ， 将 亚 利 桑 
那 当 做 比 阿 拉 斯 加 大 1 个 单位 和 比 阿拉 巴 马 大 两 个 单位 ， 是 否 有 用 或 合适 
在 回归 分 析 中 , 如 果 一 个 分 类 变量 有 m 种 不 同 的 取 值 , 那么 实施 这 种 分 类 变量 的 一 种 合适 方法 
是 添加 m-1 个 二 元 变量 到 回归 模型 中 。 用 Income 的 例子 来 说 明 ， 除 了 怀俄明 之 外 ( 因为 在 对 州 按 


照 字母 表 排序 时 ， 该 州 是 最 后 一 个 )， 男 外 49 个 州 所 对 应 的 二 元 变量 可 以 被 加 入 到 模型 中 。 
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results3 «- lm(Income-Age + Education, 
* Alabama, 
* Alaska, 
* Arizona, 


* WestVirginia, 
* Wisconsin, 
income input) 


R 代码 中 ， 输 入 文件 添加 了 49 个 列 ， 分 别 表 示 前 49 个 州 的 二 元 变量 。 如 果 一 个 人 来 自 于 
可 拉巴 马 〈Alabama )， 阿 拉巴 马 变 量 的 值 会 被 设 为 1， 而 其 他 48 个 州 的 变量 值 会 被 设 为 0。 这 
处 理 也 会 被 应 用 到 其 他 州 的 变量 上 。 所 以 ， 如 果 一 个 人 来 自 于 怀俄明 州 〈《 一 个 没有 在 模型 ， 
确 表述 的 州 )， 则 会 通过 将 所 有 49 个 州 的 二 元 变量 设置 为 0 来 识别 。 在 这 个 表述 中 ， 剑 俄 明 
州 被 作为 参考 ， 其 他 州 变量 的 回归 系数 表示 怀俄明 州 与 一 个 特定 州 之 间 在 收入 上 的 差异 。 


4. 参数 的 置信 区 间 

个 可 用 的 线性 回归 模型 经 常 可 以 用 来 获得 一 些 与 模型 以 及 产生 观测 值 的 群体 相关 的 扒 
断 。 在 前 面 ， 我 们 看 到 + 检 验 可 以 用 来 对 单个 模型 参数 6 Cj = 0, 1, .…, p-1 ) 执行 假设 检验 。 或 
者 , 这 些 t 检 验 可 以 以 参数 的 置信 区 间 的 形式 表示 。R 语言 通过 使 用 confintO 函 数 简化 了 参数 置 
信 区 间 的 计算 。 在 Income 的 示例 中 ， 下 面 的 R 命令 针对 两 个 变量 (Age 与 Education ) 提供 了 
95% 的 截 距 与 系数 的 置信 区 间 。 
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confint (results2, level = .95) 


2.5 $ 97.5 $ 
(Intercept) 2.9777598 10.538690 
Age 0.9556771 1.036392 
Education 1.5313393 1.985862 


基于 数据 , 先前 对 Education 系数 的 估计 值 是 1.76. HA confint0 函 数 计算 得 到 ,相应 的 9596 
的 置信 区 间 为 (1.53, 1.99)， 代 表 估计 值 中 的 不 确定 性 。 换 句 话说 ,在 重复 的 随机 抽样 中 ，95% 的 
情况 下 ， 计 算得 到 的 置信 区 间 跨 越 了 真实 但 未 知 的 系数 。 正 如 之 前 t 检验 结果 中 的 预期 ， 没 有 
置信 区 间 的 跨越 0。 












































































































































































































































































































































5. 预期 结果 的 置信 区 间 
除了 获得 关于 模型 参数 的 置信 区 间 之 外 ， 经 常 也 希望 获得 有 关 预 期 结果 的 置信 区 间 。 在 
Income 的 示例 中 , 拟 合 得 到 的 线性 回归 对 于 给 定 的 Age 与 Education, 提供 了 期 望 的 收入 。 然 而， 
该 特定 的 收入 估算 并 没有 提供 有 关 估算 不 确定 性 的 信息 。 对 于 一 组 给 定 的 输入 变量 值 ， 在 R 中 
使 用 predict0 函 数 可 以 获得 预期 结果 的 置信 区 间 。 
在 这 个 例子 中 ， 建 立 了 一 个 包含 特定 年 龄 和 教育 年 限 值 的 数据 帧 。 使 用 这 组 输入 变量 值 ， 
predictO 国 数 对 于 年 龄 为 41 岁 、 教 育 年 限 为 12 年 的 人 的 预期 Income 提供 了 95% 的 置信 区 间 。 

Age «- 41 


Education «- 12 
new pt «- data.frame(Age, Education) 
































































































































































































































































































































































































































































































































conf int pt <- predict (results2,new pt,level-.95,interval-"confidence") 
conf int pt 


fit lwr upr 
1 68.69884 67.83102 69.56667 


针对 这 组 输入 值 ， 预 期 收入 是 $68,699，95% 的 置信 区 间 为 ($67,831,$69,567 )。 


6. 特定 输出 的 预测 区 间 
前 面 的 置信 区 间 相 对 接近 于 (上 下 大 约 差 $900 ) 拟 合 值 。 然 而 ， 置 信 区 间 不 代表 估计 某 个 
特定 人 收入 时 的 不 确定 性 。R 中 的 predict0 函 数 也 能 够 计算 特定 收入 的 上 下 界限 。 这 类 界限 提供 
的 是 预测 区 间 (prediction interval )。| Income 的 例子 ,在 R 中 ， 对 于 一 个 41 岁 、12 年 教育 
经 历 的 人 来 说 ， 其 Income 的 95% 预 测 区 间 的 计算 方式 如 下 。 


pred int pt <- predict (results2,new pt,level-.95,interval-"prediction") 
pred int pt 
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fit lwr upr 

68.69884 44.98867 92.40902 
司 样 ， 预 期 的 收入 是 $68,699。 然 而 ，95% 的 预测 区 间 是 ($44,988,892,409)。 如 果 这 个 宽 区 间 
的 原因 看 起 来 不 明显 ， 回 想 一 下 在 图 6.3 中 ， 对 于 一 个 特定 的 输入 变量 值 ， 预 期 的 结果 落 在 下 
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归 线 上 ， 但 其 观测 值 是 于 绕 预 期 结果 正 态 分 布 的 。 置 信 区 间 适 用 于 沙 在 回归 线 上 的 预期 结果 ， 
但 是 预测 区 间 则 适用 于 可 能 出 现在 正 态 分 布 中 任意 位 置 的 结果 。 

因此 ， 在 线性 回归 中 ， 置 信 区 间 通 常用 来 获取 与 群体 预期 结果 有 关 的 推 晰 ， 而 预测 区 间 则 
E 用 来 获得 与 下 一 个 可 能 的 结果 有 关 的 推断 。 






































































































































































































































6.1.3 诊断 
假设 检验 、 置 信 区 间 和 预测 区 间 的 使 用 依赖 于 模型 假设 为 真 的 情况 。 下 面 的 讨论 提供 了 
些 工 具 和 技术 ， 可 以 用 来 验证 一 个 拟 合 得 出 的 线性 回归 模型 。 





















































































































































1. 评估 线性 假设 

线性 回归 模型 中 的 一 个 主要 的 假设 是 ， 输 入 变量 与 结果 变量 之 间 的 关系 是 线性 的 。 用 来 评 
估 这 种 关系 最 基本 的 方法 是 对 每 个 输入 变量 标 出 结果 变量 。 在 Income 的 示例 中 ,这 种 散 点 图 如 
到 6.4 所 示 。 如 果 Age 与 Income 的 关系 像 图 6.5 那样 ， 则 无 法 使 用 线性 模型 。 在 这 种 情况 下 ， 
经 名 可 以 执行 下 列 操作 : 

e 转换 结果 变量 ; 

e 转换 输入 变量 ; 

e 在 回归 模型 中 添加 额外 输入 变 
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图 6.5 ”收入 作为 年 龄 的 
通常 的 转换 方法 包括 取 变 量 的 平方 根 或 对 数 。 另 外 一 种 选择 是 创建 一 个 新 的 输入 变量 ， 比 
FE 岭 的 平方 ， 然 后 将 其 添加 到 线性 回归 模型 来 拟 合 输入 变量 和 结果 之 间 的 平方 关系 。 

评估 残 差 的 时 候 也 会 考虑 使 用 额外 的 转换 。 
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2. 评估 残 差 
如 前 所 述 ， 线 性 回归 模型 中 的 误差 项 被 假设 为 一 个 均 为 值 为 零 日 方差 为 常数 的 正 态 分 布 。 
这 种 假设 不 成 立 ， 则 基于 假设 检验 、 置 信 区 间 和 预测 区 间 所 做 的 各 种 推论 都 是 可 疑 的 。 
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6.1 线性 回归 
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如 果 要 检查 回归 线 上 的 所 有 y 值 的 常数 方差 ， 可 以 使 用 一 个 简单 的 拟 合 结果 值 的 残 差 图 。 
还 记得 , 残 差 是 基于 OLS 参数 估计 的 拟 合 值 和 观测 结果 变量 之 间 的 差 值 。 因 为 检验 残 差 的 重要 
ME, R 中 的 Im0 函 数 会 自动 计算 拟 合 的 值 和 残 差 ， 并 将 结果 分 别 存储 在 Im0 函 数 输出 中 的 


fittted.values 和 residuals 中 。 使 用 存储 在 results2 中 的 收入 归 回 模型 的 输出 ， 并 使 用 如 下 R 代码 
来 生成 图 6.6。 


with(results2, { 













































































































































































































































































plot (fitted.values, residuals,ylim-c(-40,40) ) 
points(c(min(fitted.values),max (fitted.values)), 
c(0,0), type = "1")}) 











图 6.6 ”显示 方差 为 常数 的 残 差 图 
图 6.6 中 的 图 显示 ， 无 论 拟 合 线性 回归 模型 上 的 收入 值 是 什么 ， 都 可 以 观测 到 在 参考 零 线 


两 侧 比较 均匀 地 分 布 的 残 差 ， 而 且 残 差 从 一 个 拟 合 值 到 下 一 个 拟 合 值 的 分 布 相当 恒定 。 这 一 类 
分 布 图 能 够 支持 关于 误差 项 的 均值 为 0 以 及 方差 为 常数 的 假设 。 
如 果 残 差 图 看 起 来 像 图 6.7 至 图 6.10 中 那样 ， 那 么 需要 考虑 和 尝试 之 前 讨论 的 一 些 转换 或 


添加 额外 的 输入 变量 。 图 6.7 所 示 为 残 差 存在 非 线性 的 趋势 。 图 6.8 所 示 为 残 差 不 以 零 线 居中 分 


E. o 


US 
布 。 图 6.9 所 示 为 线性 回归 模型 中 的 各 种 结果 的 残 差 的 线性 趋势 。 这 个 分 布 图 显示 回归 模型 中 
uk 










































































































































































































































































































































































































































































少 一 个 变量 或 项 。 图 6.10 提供 了 一 个 示例 ， 其 中 误差 项 的 方差 不 是 一 个 常数 ， 而 是 沿 着 拟 合 
导出 的 线性 回归 模型 而 增长 。 
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6.7” 非 线性 趋势 的 残 差 
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图 6.8” 残 差 不 以 零 线 居中 分 布 
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Él6.9 ” 残 差 具 有 线性 趋势 
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图 6.10 ” 残 差 的 方差 不 恒定 





3. 评估 正 态 假设 
















































































残 差 图 可 以 用 来 确定 残 差 是 否 以 零 线 居中 ， 以 及 是 否 有 常数 方差 。 然 而 ， 仍 然 需 要 验证 
态 假设 。 如 图 6.11 所 示 ， 下 面 的 R 语言 生成 results2( Income 示例 的 输出 ) 残 差 的 直方 图 。 


hist(results2$residuals, main="") 


















































6.1 线性 回归 
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图 6.11 正 态 分 布 残 差 的 直方 图 























从 直方 图 中 可 以 看 到 ， 残 差 的 分 布 以 零 线 居中 而 且 以 零 值 对 称 ， 正 如 人 们 对 正 态 分 布 的 随 
机 变量 所 期 望 的 那样 。 另 一 个 选项 是 检查 分 位 数 图 (Q-Q Plot )， 该 图 可 以 比较 观测 数据 和 假定 
分 布 的 分 位 数 (Q) FER 中 ,下 面 的 代码 为 Income 示例 中 的 残 差生 成 了 图 6.12 所 示 的 Q-Q 图 ， 
并 描绘 了 正 态 分 布 中 的 值 应 该 遵循 的 线 。 

































































































































































qqnorm(results2$residuals, ylab-"Residuals", main="") 
qqline (results2$residuals) 


图 6.13 中 的 Q-Q 图 显示 需要 对 模型 进行 改进 ， 以 实现 误差 项 的 正 态 分 布 。 
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图 6.12 ” 残 值 正 态 分 布 的 Q-Q 图 
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6.13 ” 残 值 非 正 态 分 布 的 Q-Q E 




















4. N 重 交叉 验证 

为 了 防止 过 度 拟 合 一 个 给 定 的 数据 集 ， 一 种 通常 的 做 法 是 将 整个 数据 集 随机 分 成 训练 集 和 
测试 集 。 一 旦 模型 在 训练 集 上 开发 完成 ， 就 需要 在 测试 集 上 进行 评估 。 当 没有 足够 的 数据 来 创 
建 训 练 集 和 测试 集 的 时 候 ， 则 可 以 使 用 一 种 N 重 交 叉 验 证 技术 来 比较 各 种 拟 合 模型 。 在 N 重 交 
叉 验 证 中 ， 会 发 生 下 列 情况 。 

e ”整个 数据 集会 被 随机 划分 成 近似 相等 大 小 的 N 个 数据 集 。 

e ”模型 在 N-1 个 数据 集 上 进行 训练 ， 然 后 在 剩 下 的 数据 集 上 进行 测试 并 度 生 

@ 上 述 整 个 过 程 一 共 重 复 N 次 ,每 次 在 N 个 数据 集中 有 取 不 同 的 N-1 个 数据 集 组 合 。 
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e 观测 到 的 N 个 模型 误差 是 NN 上 
一 个 模型 的 平均 误差 与 男 一 个 模型 的 平均 误差 会 被 用 来 进行 比较 。 这 项 技术 还 可 以 帮助 
定 在 现 有 的 模型 添加 更 多 的 变量 是 否 有 益 ， 或 者 是 否 可 能 导致 过 度 拟 合 。 


其 他 诊断 考虑 


























































































































































































































































































































































































































可 归 模 型 符合 上 述 诊断 标准 ， 通 过 添加 未 考虑 到 的 额外 输入 变量 来 改进 模型 
由 是 可 能 的 。 在 之 前 Income 的 例子 中 , 近 考 虑 了 三 个 可 能 的 输入 变量 : Age, Eduction 和 Gender. 
很 多 其 他 额外 的 输入 变量 ， 例 如 Housing 或 Marital_Status 也 可 以 改进 拟 合 模型 。 重 要 的 是 在 分 
析 过 程 中 尽早 考虑 所 有 可 能 的 输入 变量 。 

前 面 提 到 ，R-squared(R”) 是 一 个 常用 的 报告 度量 (reported metric )， 用 来 衡量 线性 回归 模型 
解释 数据 时 的 偏差 。 在 拟 合 一 个 线性 回归 模型 和 时， 调整 后 的 RO 基于 模型 中 参数 的 数量 对 R? Jk 




































































































































































去 一 个 惩罚 值 。 因 为 当 更 多 的 变量 被 添加 到 一 个 现 有 的 回归 模型 时 ，R” 值 总 是 更 接近 1， 因 此 
调整 后 的 R* 值 实际 上 可 能 会 减 小 。 
应 该 检查 任何 离 群 点 C outlier ) 的 残 差 分 布 。 所 谓 离 群 点 , 是 明显 不 同 于 大 多 数 点 的 观测 点 。 
离 群 点 可 以 由 糟糕 的 数据 收集 、 数 据 处 理 错误 产生 , 或 者 它 实 属 罕见 的 存在 。 在 Income 的 示例 
中 ,假设 有 一 个 收入 为 100 万 美元 的 个 体 被 包括 在 数据 集中 ， 这 个 观测 值 可 能 影响 到 拟 合 得 出 























































































































































































































































































































6.2 ”逻辑 回归 
































的 回归 模型 ， 如 在 安 斯 库 姆 四 重奏 的 示例 中 那样 。 









































































































































































































































最 后 ,应 当 检查 估计 参数 的 大 小 和 迹象 来 判断 它们 是 否 有 意义 。 例 如 ,假设 在 Income 示例 
中 得 到 Education 变量 的 一 个 负 系 数 。 因 为 人 们 会 理所当然 地 认为 受 教育 年 限 越 高 , 获得 的 收入 
也 越 高 ， 因 此 要 么 发 现 了 一 些 非 党 意外 的 情况 ， 要 么 模型 有 问题 ， 要 么 是 数据 收集 有 问题 ， 要 
么 是 一 些 其 他 因素 。 在 任何 情况 下 ， 都 需要 进一步 调查 。 



















































































6.2 ”逻辑 回归 


归 建 模 中 ,结果 变量 是 一 个 连续 变量 。 从 之 前 的 Income 示例 中 可 以 看 出 ， 线 性 下 
归 可 以 用 来 对 年 龄 和 教育 与 收入 之 间 的 关系 进行 建 模 。 假 设 我 们 不 关心 一 个 人 的 实际 收入 ,市 
关心 这 个 人 的 贫 富 。 在 这 种 情况 下 ， 当 结果 变量 是 分 类 型 的 ， 那 么 逻辑 回归 可 以 用 来 基于 输入 
变量 预测 结果 的 可 能 性 。 虽 然 逻 辑 回归 可 以 应 用 于 一 个 有 多 个 值 的 结果 变量 ， 但 是 下 面 的 讨论 
将 研究 这 样 的 情况 ， 即 结果 变量 有 两 个 值 ， 

例如 ， 可 以 构建 一 个 逻辑 回归 模型 ， 来 确定 一 个 人 是 否 会 在 未 来 12 个 月 内 购买 新 的 汽车 。 
训练 集 可 以 包括 一 个 人 的 年 龄 、 收 入 、 性 别 以 及 现 有 汽车 的 车 龄 等 输入 变量 。 训 练 集中 也 可 包 
含 这 个 人 在 过 去 的 12 个 月 是 否 购买 了 新 汽车 这 一 结果 变量 。 逻辑 回归 模型 提供 了 一 个 人 在 接 下 
来 的 12 个 月 中 购买 新 汽车 的 可 能 性 或 概率 。 在 讲解 一 些 逻 辑 回归 的 用 例 之 后 , 本 章 剩 下 的 部 分 
就 会 探讨 如 何 建立 和 评估 一 个 逻辑 回归 模型 。 


6.2.1 用 例 
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法 如 下 所 示 : 
e 医疗: 建立 一 个 模型 来 判断 特定 治疗 或 手术 对 一 个 病人 有 效 的 可 能 性 。 输 入 变量 可 能 






































包括 年 龄 、 体 重 、 血 压 和 胆固醇 水 平 。 
j 贷 款 申 请 人 的 信用 历史 和 其 他 贷款 细节 来 确定 申请 人 会 拖欠 贷款 的 概率 。 
于 预测 ， 贷 款 申 请 可 能 被 批准 或 拒绝 ， 或 修改 条 款 。 
e ”营销 ; 根据 年 龄 、 计 划 包 含 的 家 庭 成 员 数 、 现 有 合同 的 剩余 月 数 ， 以 及 其 社交 网 络 联 
系 人 等 来 判断 确定 一 个 无 线 网 络 客户 更 换 运营 商 的 概率 〈 称 为 流失 )。 通 过 这 种 洞 见 ， 
E 位 具有 高 流失 概率 的 客户 ， 为 他 们 提供 合适 的 合约 来 防止 流失 。 
e T: 根据 工程 的 运营 状况 和 各 种 诊断 数据 来 确定 机 器 零件 出 现 故障 或 失效 的 概率 。 
通过 这 种 概率 的 估计 ， 可 以 计划 适当 的 预防 性 维护 。 







































































































































































































































































































































































































































































6.2.2 REHA 
逻辑 回归 基于 人 逻辑 函数 Ky)， 如 公式 6.7 所 示 。 
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e 
AS 


注意 ， 当 -> wo 时 , fy) -> 1， 而 当 关 >-oo 时 ，A) -> 0。 所 以 ， 如 图 6.14 Aran, iE HERZ 
fy) 的 值 随 着 y 值 的 增 大 ， 在 0 一 1 之 间 变 化 。 


其 中 一 co<y éo (6.7) 







































































exp(y)(1 + exp(y)) 
00 02 04 06 08 10 





图 6.14 ”逻辑 函数 




































































因为 逻辑 函数 fy) 的 取 值 范围 是 (0，1 )， 所 以 此 函数 适合 用 来 模拟 特定 结果 的 发 生 概率 。 
随 着 y 值 的 增加 ， 结 果 发 生 的 概率 也 会 增加 。 在 任何 提出 的 模型 中 ， 为 了 预测 一 个 结果 的 可 能 











































































































































































































lE, y 需要 作为 输入 变量 的 一 个 函数 。 在 逻辑 回归 中 ，y 表示 为 输入 变量 的 一 个 线性 函数 。 换 名 
话说 ， 如 公式 6.8 所 示 。 
Y= bo + 6X PIS B, Xa (6.8 ) 
所 以 ， 基 于 输入 变量 xi x,….x,1， 事 件 发 生 的 概率 如 公式 6.9 所 示 。 
posset, m fO) =F d en (69) 















































公式 6.8 相当 于 线性 回归 建 模 中 使 用 的 公式 6.1。 然 而 ， 一 个 不 同 是 公式 6.8 中 的 y 值 不 能 
被 直接 观察 到 。 只 有 f(y) 的 值 ( 即 成 功 或 失败 ， 通 常 分 别 表示 为 1 或 0 ) 才能 被 观察 到 。 
] p 来 表示 f(y)， 公 式 6.9 可 以 被 重 写 为 公式 6.10 的 格式 。 

























































































































































































































































































































































































mi + Bx + 8x... B, xa (6.10) 
公式 6.10 中 nl; E | 称 为 对 数 差异 比 (log odds ratio ), BE 是 p 的 对 数 成 败 比 率 曲 线 ( logit )。 
=P 
极 大 似 然 估计 (Maximum Likelihood Estimation, MLE ) 这 样 的 技术 可 以 用 来 估计 模型 参数 。MLE 
决定 了 模型 参数 的 值 ， 这 些 值 可 以 最 大 化 观测 到 给 定数 据 集 的 可 能 性 。 然 而 ，MLE 的 实施 细节 超 
出 了 本 书 的 讨论 范围 。 
下 面 的 例子 有 助 于 更 清晰 地 理解 逻辑 回归 模型 。 下 一 节 在 讲解 评估 拟 合 模型 时 ， 会 讲解 使 













































































归 模 型 的 机 制 。 本 节 的 重点 是 解释 拟 合 模型 。 
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] R 来 拟 合 逻辑 


























6.2 ”逻辑 回归 





客户 流失 案例 
家 无 线 电信 公司 想 要 估计 在 接 下 来 的 6 个 月 中 ,客户 流失 (更 换 到 不 同 的 公司 ) 的 概率 。 
























































































































































通过 对 一 个 客户 的 流失 可 能 性 进行 合理 的 精确 预测 ， 销 售 和 营销 团队 可 以 尝试 通过 提供 各 种 优 
惠 来 留 住 客户 。 他 们 获得 了 8000 个 当前 和 以 前 客户 的 数据 。 收 集 到 每 一 个 客户 的 变量 如 下 。 
€ Age (人 年龄 ) 









































































































































































































































€ Married (Wf ) 

€ Duration (客户 年 限 ) 

€ Churned_contacts (流失 的 联系 人 ) 已 经 流失 的 客户 联系 人 的 数量 

€ Churned (流失 与 否 ) 一 一 客户 是 否 已 经 流失 

在 分 析 这 些 数据 并 拟 合 一 个 逻辑 回归 模型 后 , Age 和 Churned_contacts 被 选 为 最 好 的 预测 变 












































公式 6.11 提供 了 预 估 的 模型 参数 。 

y=3.50-0.16 * Age+0.38 *Churned _ contacts (6.11 ) 
利用 公式 6.11 中 的 拟 合 模型 ， 表 6.1 根据 顾客 的 年 龄 和 流失 联系 人 的 数量 给 出 了 一 个 客户 流失 

的 概率 。 表 6.1 也 提供 了 y 的 计算 值 。 前 面 在 讲解 逻辑 函数 时 提 到 ， 随 着 y 值 的 增加 ， 流 失 概率 也 

euin. 
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表 6.1 预计 的 流失 概率 
客户 Age (4) Churned contacts y 流失 概率 
1 50 1 -4.12 0.016 
2 50 3 -3.36 0.034 
3 50 6 一 22 0.098 
4 30 1 V0.92 0.285 
5 30 5 —0.16 0.460 
6 30 6 0.98 0.727 
7 20 1 0.68 0.664 
8 20 3 1.44 0.808 
9 20 6 2.58 0.930 
根据 拟 合 模型 , 一 个 20 岁 的 有 6 个 联系 人 已 经 流失 了 的 客户 , 其 将 有 93% 的 概率 也 会 流失 ( 见 
表 6.1 中 的 最 后 一 行 ) 检查 公式 6.11 中 估算 系数 的 符号 和 值 , 可 以 看 出 随 着 Age 的 增加 , y 值 在 减 
小 。 因 此 , 负 的 Age 系数 表明 , 年 纪 大 的 客 PETA AAA 对 较 小 。 另 一 方面 , 基于 Churned_contacts 
系数 的 正 号 ，y 的 值 和 流失 概率 会 随 着 联系 人 流失 数量 的 增加 而 增加 。 
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这 个 流失 案例 说 明了 如 何 诠释 一 个 拟 合 得 出 的 逻辑 回归 模型 。 本 节 中 使 用 R 来 讲解 开发 逻 
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和 辑 回归 模型 和 评估 模型 效果 的 步 又。 在 这 个 示例 中 ，churn_input 数据 帧 的 结构 如 下 所 示 。 


























head(churn input) 










































































ID Churned Age Married Cust years Churned contacts 

1 0 61 3 1 

2 0 50 3 2 

3 3 0 47 2 0 

4 4 0 50 3 3 

5 5 0 29 1 3 

6 6 0 43 4 3 
Churned 的 值 为 1 表示 客户 已 流失 。Churned 为 0 表示 该 客户 仍然 为 签约 客户 。 在 数据 集 的 

8000 条 客户 记录 中 ， 有 1743 位 客户 (A 22% ) 已 经 流失 。 

















sum(churn input$Churned) 


[1] 1743 


使 用 广义 线性 模型 函数 glmO, 在 R 和 指定 的 family/link H, 可 以 将 逻辑 
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据 集中 的 变量 ， 并 进行 研究 ， 如 下 所 示 。 


对 应 ，Pr 表示 确定 估计 的 模型 参数 是 否 明显 不 为 0 的 假设 检验 的 p 值 。 在 不 带 Cust_years 变量 


(该 
































Churn logisticl <- glm (Churned-Age + Married + Cust years + 
Churned contacts, data-churn input, 
family=binomial (link="logit") ) 

summary (Churn logisticl) 


Coefficients: 

Estimate Std. Error z value Pr(»|z]|) 
(Intercept) 3.415201 0.163734 20.858 «2e-16 *** 
Age -0.156643 0.004088 -38.320 «2e-16 *** 
Married 0.066432 0.068302 0.973 0:391 
Cust years 0.017857 0.030497 0.586 0.558 
Churned contacts 0.382324 0.027313 13.998 «2e-16 *** 
Signife ‘codes: Q0 '**".9.00T. ee 10. 01. 1 .:0705. 5t! (Oz « «T 












































在 线性 回归 案例 中 ,有 一 些 测试 来 确定 系数 是 否 明显 不 为 0。 这 样 的 系数 与 较 小 的 值 Pr [z 
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变量 有 最 大 的 p 值 ) 的 情况 下 重新 运行 该 分 析 ， 产 生 如 下 结果 。 


Churn logistic2 <- glm (Churned-Age + Married + Churned contacts, 
data-churn input, family=binomial (link="logit") ) 
summary (Churn_logistic2) 



































Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 3.472062 0.132107 26.282 <2e-16 *** 
Age -0.156635 0.004088 -38.318 «2e-16 *** 
Married 0.066430 0.068299 0.973 0.331 
Churned contacts 0.381909 0.027302 13.988 <2e-16 *** 


Signif..codess-Q Tr OOOL T**togu0L teh 0.05. 5 ONE T 
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因为 Married 系数 的 p 值 仍然 很 大 , 所 以 把 Married 变量 从 模型 

















下 面 的 R 代码 给 





LL 



























































第 三 个 和 最 后 一 个 模型 ， 最 后 一 个 模型 只 包括 Age 和 churned. contacts 变量 














NI 




















Churn logistic3 «- glm (Churned-Age + Churned contacts, 


data-churn input, family=binomial (link="logit") ) 


summary (Churn_logistic3) 


Call: 
glm(formula = Churned ~ Age + Churned_contacts, 


family = binomial(link = "logit"), data = churn_input) 


Deviance Residuals: 
Min 1Q Median 30 Max 
-2.4599 -0.5214 -0.1960 -0.0736 3.3671 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 3.502716 0.128430 27.27 «2e-16 *** 
Age -0.156551 0.004085 -38.32 <2e-16 大 大 大 
Churned_contacts 0.381857 0027297: 13.99» €«2e-16 *** 
Signif.- codessQ TAFET "QAO TAY oT OTE OOS Tr Qu onm T 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 8387.3 on 7999 degrees of freedom 
Residual deviance: 5359.2 on 7997 degrees of freedom 


AIC: 5365.2 


Number of Fisher Scoring iterations: 6 


对 于 最 后 一 个 模型 ,给 出 了 整个 的 汇总 输出 。 输 出 提 信 
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拟 合 模型 的 几 个 值 。 






















































































应 该 指出 的 是 ， 模 型 参数 估计 值 对 应 于 公式 6.11 中 的 值 ， 这 些 值 也 被 用 来 构造 表 6.1。 



























































偏差 和 伪 R’ 












































































































































在 R 输出 中 会 提供 两 个 偏差 值 。 其 中 无 效 偏差 null deviance ) 是 仅仅 基 
Bo) 的 结果 。 而 残 差 (residual deviance ) 


公式 6.12 所 示 。 
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y2fo* fi* Agetf»^*Churned _ contacts 
P R? 的 一 个 度量 可 以 按照 公式 6.13 计算 得 出 。 


residual dev. _ null dev.— res.dev. 











IN, 
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似 于 线性 回归 中 














peseudo — R° =1 = 
null dev. null dev. 


在 逻辑 回归 中 ， 偏 差 定 义 为 -2* logL, HP L 是 用 来 计算 参数 估计 值 的 似 然 函 数 的 最 大 值 。 
) 于 截 距 项 的 似 然 函 数 (y=- 
于 特定 逻辑 模型 中 的 参数 的 似 然 函 数 的 结果 ， 如 















































(6.12) 


(6.13) 















































1/5 R? ( peseudo-R”) 用 来 衡量 拟 合 模型 相 比 于 默认 模型 ( 没有 预测 变量 
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在 解释 数据 时 效果 有 多 好 。 伪 RR 值 越 接 近 1 则 表示 它 要 比 简 单 的 时 
































认 模 型 好 





只 有 一 个 截 距 项 ) 
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2. 偏差 和 对 数 似 然 率 检验 
在 伪 R 的 计算 中 , 乘 数 -2 直接 被 约 去 了 。 所 以 , 看 起 来 包含 这 样 的 一 个 乘 数 不 能 带 来 任何 
好 处 。 但 是 ,在 偏差 定义 中 的 乘 数 是 基于 对 数 似 然 检 验 统计 的 ， 如 公式 6.14 所 示 。 












































































































































—2*log 





nm | (6.14) 


alt. 


= —2*]og(L,u) — C72) *log(L,, ) 
LH T i as 方 分 布 ( Xs ), k : RE Cdf) 一 (df) =dfnui dfatternate 
前 面 对 对 数 似 然 检 验 统计 的 描述 可 以 应 用 到 使 用 了 MLE 的 任何 估计 。 在 公式 6.15 中 可 以 
看 到 ， 在 逻辑 回归 案例 中 ， 













































































































































































T=null deviance-residual deviance~ x; , (6.15 ) 


Er p 是 拟 合 模型 中 的 参数 个 数 。 
因此 , 在 一 个 假设 检验 中 , 一 个 较 大 的 了 值 表明 拟 合 模型 明显 优 于 只 使 用 













































































距 项 的 零 
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模型 











在 客户 流失 案例 中 ， 对 数 似 然 率 统计 如 下 : 
T=8387.3-5359.2=3028.1， 其 中 自由 度 为 2， 相 应 的 p 值 木质 上 是 0。 

到 目前 为 上 ， 对 数 似 然 率 检验 的 讨论 主要 集中 在 比较 拟 合 模型 和 只 使 用 截 距 的 默认 模型 。 
然而 ， 对 数 似 然 率 检验 也 可 以 用 于 比较 不 同 的 拟 合 模型 。 例 如 ， 当 分 类 变量 Married 和 Age, 
churned, contacts 一 起 作为 逻辑 回归 模型 的 输入 变量 时 ， 这 个 模型 的 部 分 R 输出 如 下 所 示 。 
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summary (Churn logistic2) 

Call: 

gim(formula = Churned ~ Age + Married + Churned contacts, 
family = binomial(link = "logit"), 
data = churn input) 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 3.472062 0.132107 26.282 «2e-16 *** 
Age -0.156635 0.004088 -38.318 «2e-16 *** 
Married 0.066430 0.068299 0.973 0.331 


Churned contacts 0.381909 0.027302 13.988 <2e-16 *** 


Signif..‘codess-:0. "0.001 ær (0201 tw".0.05.*.* OXL !' ' d 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 8387.3 on 7999 degrees of freedom 
Residual deviance: 5358.3 on 7996 degrees of freedom 


每 个 模型 的 剩余 偏差 (residual deviance ) 可 以 用 于 执行 基于 基础 模型 的 假设 检验 。 在 假设 
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检验 中 ，Ho: Bwaniea-0, HA: Bwanied 关 0。 基 础 模型 包含 了 Age 和 churned_contacts 变量 。 检 验 
统计 如 下 。 








T=5359.2—5358.3=0.9 with 7997—7996z1degree of freedom 
使 用 R 语言 ， 相 应 的 p 值 计算 如 下 。 


pchisq(.9 , 1, lower=FALSE) 
























































1] 0.3427817 

Wt, 在 66% 或 更 高 的 置信 水 平 下 ,， 原 假设 Ho: Bwuasiea-0 不 会 被 否定 。 因 此 , 在 逻辑 回归 
模型 中 去 除 变 量 Married 似乎 是 合理 的 。 
通常 情况 下 ， 当 一 步 步 地 在 逻辑 回归 模型 中 添加 变量 或 移 除 变量 时 ， 对 数 似 然 率 检验 特别 
有 用 。 


3. 接收 者 操作 特征 (ROC) 曲线 

逻辑 回归 经 常 被 作为 一 个 分 类 器 ， 基 于 模型 提供 的 预测 概率 给 为 人 、 物 品 或 交易 打 标 签 。 
在 客户 流失 案例 中 ， 如 果 导 辑 模型 预测 某 个 客户 的 流失 概率 很 高 ， 那 么 这 个 客户 就 可 以 使 用 标 
签 Churn 来 分 类 。 否 则 ， 就 会 分 配给 这 个 客户 一 个 Remain 标签 。 通 常 ，0.5 作为 默认 的 概率 国 
值 来 区 分 两 类 标签 。 然 而 ， 为 了 避免 误 报 ( 例如 ， 把 一 个 标签 为 Remain 的 客户 预测 为 Churn ) 






































































































































































































































































































































































































































































































































































































































































































































或 漏 报 ( 例如 ， 把 一 个 标签 为 Churn 的 客户 预测 为 Remain )， 也 可 以 根据 偏好 使 用 任意 国 值 。 
在 通常 情况 下 ， 对 于 两 类 标签 C 和 -C， 其 中 “-C” 表 示 “ 非 C”， 一 些 工 作 定义 和 方程 如 下 
所 示 。 
e IPOE (True Positive): 预测 为 C， 实 际 为 C 
e FAME (True Negative): 预测 为 "C， 实 际 为 "C 
e {KARE (False Positive ): 预测 为 C， 实 际 为 "C 
e 假 阴 性 (False Negative): 预测 为 "CC， 实 际 为 C 











#of false positives 





False Positive Rate(FPR)= (6.16 ) 


#of negatives 


#of true positives 


True Positive Rate(TPR) = (6.17) 





#of positives 



































真 阳性 率 (True Positive Rate, TPR ) 与 假 阳 性 率 ( False Positive Rate, FPR ) 的 对 比 图 称 作 
为 接 n 操作 特性 (Receiver Operating Characteristic, ROC ) 曲线 。 使 用 ROCR 包 ， 下 面 的 RR 
代码 命令 能 生成 流失 案例 的 ROC 曲线 。 


library (ROCR) 




















































































































pred = predict (Churn logistic3, type-"response") 
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predObj = prediction(pred, churn input$Churned ) 


rocObj = performance (predObj, measure-"tpr", x.measure="fpr") 
aucObj = performance (predObj, measure-"auc") 


plot(rocObj, main = paste("Area under the curve:", 
round (aucObj@y.values[[1]] ,4))) 


如 图 6.15 所 示 , 一 个 分 类 器 的 最 佳 结 果 就 是 有 一 个 低 的 FPR 和 一 个 高 的 TPR。 所 以 ， 当 在 
FPR 轴 上 从 左 到 右 移动 的 时 候 , 好 的 模型 /分 类 器 的 TPR 值 会 迅速 接近 1, 同时 FPR 只 有 小 小 的 
变化 。ROC 曲线 的 轨迹 在 垂直 方向 越 接近 图 的 左上 角 的 点 〈0,1 ) 附近 ， 模 型 /分 类 器 执行 的 效 
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果 就 越 好 。 因 此 ,一 个 有 用 的 度量 是 计算 ROC 曲线 下 的 区 域 面积 (AUC )。 从 图 6.15 可 以 看 出 
这 个 区 域 的 理论 最 大 值 为 1。 
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6.15 ”流失 案例 的 ROC 曲线 


为 了 说 明 FPR 和 TPR 的 值 是 如 何 依赖 于 分 类 器 所 使 用 的 国 值 ， 使 用 下 面 的 R 代码 构 寻 
6.16 中 的 图 。 
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# extract the alpha (threshold), FPR, and TPR values from rocObj 
alpha <- round(as.numeric(unlist (rocObj@alpha.values) ), 4) 

fpr <- round(as.numeric (unlist (rocObj@x.values) ),4) 

tpr <- round(as.numeric(unlist (rocObj@y.values) ) ,4) 


# adjust margins and plot TPR and FPR 

par(mar = c(5,5,2,5)) 

plot (alpha,tpr, xlab="Threshold", xlim=c(0,1), 

ylab="True positive rate", type="1") 

par (new="True") 

plot (alpha, fpr, xlab="", ylab="", axes-F, xlim=c(0,1), type="1" ) 
axis (side=4) 

mtext (side=4, line=3, "False positive rate") 

text (0.18,0.18,"FPR") 

text (0.58,0.58,"TPR") 





6.2 ”逻辑 回归 
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图 6.16 ”流失 案例 中 闽 值 的 作用 影响 


当 阔 值 为 0， 每 个 项 都 被 分 类 为 阳性 结果 。 因 此 ，TPR 值 为 1。 然 而 ， 所 有 阴性 结果 也 被 分 
类 为 阳性 结果 ， 所 以 FPR 值 也 是 1。 随 着 阔 值 的 增加 ， 越 来 越 多 的 阴性 分 类 标签 被 分 配 ， 因 此 ， 
FPR 和 TPR 值 也 随 之 降低 。 当 阐 值 达到 1 时 ， 没 有 阳性 标签 被 分 配 ， 那 么 FPR 和 TPR 值 都 是 0。 

一 个 分 类 器 常用 的 国 值 为 0.5， 它 给 概率 大 于 等 于 0.5 的 值 分 配 一 个 阳性 标签 ， 否 则 分 配 阴 
生 标 签 。 如 下 面 的 R 代码 所 示 , 在 客户 流失 案例 数据 集 的 分 析 中 , 0.5 的 阔 值 对 应 于 0.56 的 TPR 
值 和 0.08 的 FPR 值 。 
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i <- which(round(alpha,2) == .5) 
paste ("Threshold="_, (alpha[i]) , " TPR-" , tpr[i] , " FPR-" , fpr[i]) 


[1] "Threshold= 0.5004 TPR= 0.5571 FPR= 0.0793" 

因此 , 会 流失 的 客户 中 有 56% 被 正确 地 分 类 为 Chum 标签 , 会 留 下 的 客户 中 有 8% 被 错误 地 
分 为 Churn。 如 果 只 识别 出 56% 的 流失 客户 是 不 可 接受 的 ， 那 么 可 以 降低 疹 值 。 例 如 ， 我 们 假 
设 将 流失 概率 大 于 0.15 的 任何 客户 分 类 为 Churn, 那么 下 面 的 R 代码 说 明了 相应 的 TPR 和 FPR 
值 分 别 对 应 为 0.91 和 0.29。 因 此 ,会 流失 的 客户 中 有 91% 能 被 正确 识别 ， 但 代价 是 留 下 的 客户 
中 有 29% 会 被 错误 地 分 类 。 


i «- which(round(alpha,2) == .15) 
paste("Threshold-" , (alpha[i]) , " TPR-" , tpr[i] , " FPR-" , fpr[il) 
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[1] "Threshold- 0.1543 TPR- 0.9116 FPR- 0.2869" 
[2] "Threshold- 0.1518 TPR- 0.9122 FPR- 0.2875" 
[3] "Threshold- 0.1479 TPR= 0.9145 FPR- 0.2942" 
[4] "Threshold- 0.1455 TPR- 0.9174 FPR- 0.2981" 


ROC 曲线 也 可 被 用 于 评估 其 他 分 类 器 ， 详 见 第 7 35. 
4. 概率 直方 图 


概率 直方 图 可 以 将 观测 的 值 和 巡 辑 回归 中 提供 的 预 估 概 率 进 行 可 视 化 显示 。 图 6.17 给 出 了 
已 流失 客户 和 留 下 客户 的 霄 加 直方 图 。 通 过 一 个 合适 的 拟 合 逻 辑 模型 可 以 看 到 ， 留 下 的 客户 有 
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图 6.17 用 户 数 与 估计 的 流失 率 的 对 比 


6.3 ”选择 理由 和 注意 事项 
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情况 。 如 变量 是 分 类 光量 
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接 导 致 了 输出 结果 。 侈 如 ， 那 些 定期 看 牙医 
去 看 牙医 几乎 不 会 对 此 人 的 心脏 病 发 作 几 率 
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4 那些 收入 可 能 会 导致 不 准 



























































第 6.1.2 节 的 收入 区 
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然而 ， 在 某 些 情况 下 可 能 需要 使 用 
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在 逻辑 回归 中 只 检查 二 元 结 




















多 元 逻辑 回归 (multinomial logisticrgression ), 
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本 章 讨论 了 怎么 使 用 线性 
































































































































[个 回归 技术 的 示例。 本 章 还 家 让 
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第 6 章 高 级 分 析 理 论 与 方法 : 回归 


























3 分 析 时 ， 必 须 多 加 注意 。 本 章 强 调 了 在 回归 分 析 中 ， 数 据 科 学 家 需要 做 到 以 下 几 点 。 
e ”确定 最 佳 的 输入 变量 和 它们 与 结果 变量 之 间 的 关系 。 

e 了 解 基本 假设 及 其 对 建 模 结 果 的 影响 。 

e ”适当 转换 变量 ， 以 遵从 模型 假设 。 

e ”确定 是 建立 一 个 全 面 的 模型 ,还 是 基于 分 块 数据 建立 多 个 模型 。 
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6.6 练习 


1. 在 Income 线性 回归 的 示例 中 ， 考 虑 Income 结果 变量 的 分 布 。Income 的 值 往往 是 高 度 
偏向 右 侧 ( 值 的 分 布 有 一 个 向 右 的 长 尾 L 这 样 一 个 非 正 态 分 布 的 输出 结果 是 否 违反 线性 回归 模 
型 的 基本 假设 ?请 提供 论据。 

2. 在 使 用 具有 n 个 取 值 的 分 类 变量 时 ， 解 释 如 下 问题 : 

.为 什么 只 需要 ml 个 二 元 变量 ; 
b， 为 什么 使 用 nm 个 变量 可 能 会 有 问题 。 
3. 在 把 怀俄明 州 作为 参考 的 例子 中 ， 如 果 选 择 男 一 个 州 作为 参考 ， 讨 论 其 对 已 有 模型 参数 
括 截 距 ) 估计 的 影响 。 
4. 描述 逻辑 回归 如 何 用 作 一 个 分 类 器 。 
S. 描述 如 何 使 用 ROC 曲线 来 决定 一 个 分 类 器 的 合适 冰 值 。 
6 如 果 一 个 事件 的 发 生 概率 是 0.4, ABZ 
a， 比 值 比 (odds ratio) 是 多 少 ? 
b， 对 数 差异 比 (log odds ratio ) 是 多 少 ? 

7. 如果 b. =-.5 是 线性 回归 模型 中 的 系数 估计 ， 那 么 局 的 值 每 增加 一 个 单位 会 对 比值 比 有 

什么 影响 ? 
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关键 概念 

e 分 类 学 习 

朴素 贝 叶 斯 

决策 树 

接收 者 操作 特征 (ROC ) 曲线 
混淆 和 矩阵 


第 7 章 高 级 分 析 理 论 与 方法 : 分 类 

















从 了 聚 类 (第 4 章 )、 关 联 规则 学 习 (第 5 章 ) 等 分 析 方 法 和 回归 (第 6 章 ) 等 建 模 技 术 之 
外 ， 分 类 (classification ) 是 另 一 种 在 数据 挖 气相 关 应 用 中 出 现 的 基础 学 习 方法 。 在 分 类 学 习 中 ， 
分 类 器 面 对 一 组 已 经 分 好 类 的 例子 ， 从 中 学 习 如 何 分 类 未 见 过 的 例子 。 换 句 话说 ， 分 类 器 的 主 
要 作用 是 为 新 的 观测 数据 分 配 类 别 标签 。 上 一 章 中 介绍 的 逻辑 回归 就 是 一 种 流行 的 分 类 方法 。 
分 类 器 所 用 的 标签 是 预先 定义 好 的 ， 这 与 聚 类 不 同 ， 聚 类 无 需 训 练 集 (training set ) 就 能 发 现 数 
据 内 部 构造 ， 而 且 人 允许 数据 科学 家 选择 性 地 创建 标签 ， 并 将 标签 分 配给 聚 类 徐 。 
绝 大 多 数 的 分 类 方法 是 有 监督 的 ， 它 们 从 一 组 已 被 打 标签 的 观测 数据 训练 集 开 始 ， 学 习 这 
些 观 测 数 据 的 属性 有 助 于 对 将 来 未 打 标 签 的 观测 数据 进行 分 类 的 可 能 性 有 多 大 。 例 如 ， 可 以 使 
j 现 有 的 营销 、 销 售 和 客户 人 口 数 据 来 开发 分 类 器 ， 用 来 对 洪 在 的 未 来 客户 分 配 “ 会 购买 ”或 
“不 会 购买 ”的 标签 。 
分 类 广泛 用 于 预测 。 例 如 ， 建 立 于 美国 国会 议员 辩论 记录 的 分 类 器 可 以 用 来 确定 国会 议员 
的 发 言 是 支持 还 是 反对 立法 提案 [1]。 分 类 可 以 帮助 专业 医护 人 员 诊 断 心脏 病 病 人 [2]。 根 据 电 了 
g 件 的 内 容 ， 邮 件 服务 提供 商 可 以 使 用 分 类 器 来 决定 收 到 的 电子 邮件 是 否 为 垃圾 邮件 [3]。 
本 章 主要 讲解 两 种 基本 分 类 方法 : 决策 树 (decision tree ) 和 朴素 贝 叶 斯 (naive Bayes )。 


7.1 决策 树 


决策 树 ( decision tree ) 也 称 为 预测 树 (prediction tree )， 它 使 用 树 形 结构 来 指定 决策 与 结果 
的 序列 。 对 于 给 定 的 输入 X= (xx a. ) ,目的 是 预测 一 个 答复 (response ) 或 输出 变量 Yo (xy. 
Xp, X, } 中 的 每 个 成 员 都 叫做 输入 变量 (input variable )。 预 测 可 以 通过 用 测试 点 (test point ) 和 
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分 支 (branch ) 构造 的 决策 树 来 实现 。 在 决策 树 的 每 个 测试 点 上 ， 需 要 挑选 一 个 特定 分 支 并 向 下 
遍历 树 。 遍 历 最 终 到 达 一 个 终点 ， 随 后 作出 预测 。 决 策 树 的 每 个 测试 点 都 会 涉及 测试 一 个 特定 
变量 (或 属性 )， 而 每 个 分 支 表 示 所 做 出 的 决策 。 由 于 它 的 灵活 性 与 易于 可 视 化 ,决策 树 在 数据 
控 气 应 用 中 被 普遍 用 来 进行 分 类 。 










































































决策 树 的 输入 值 可 以 是 分 类 的 (categorical ) 或 连续 的 (continuous )。 决 策 树 的 结构 由 测试 
点 ( 称 为 节点 [node] ) 和 分 支 组 成 ,其 中 分 支 表示 所 作出 的 决策 。 没 有 下 一 级 分 支 的 节点 叫做 叶 
子 市 点 (leaf node ), 叶子 和 点 返回 类 别 标签 ; 在 某 些 实现 中 , 叶 了 于 市 点 返回 概率 得 分 ( probability 
score )。 决 策 树 可 以 被 转换 成 一 组 决策 规则 。 在 下 面 的 示 侦 

输入 变量 ， 对 于 一 个 带 有 概率 得 分 的 输出 变量 default, 


IF income < $50,000 AND mortgage amount > $100K 
THEN default = True WITH PROBABILITY 75$ 


决策 树 分 为 两 种 : 分 类 树 (classification tree ) 和 回归 树 (regression tree )。 分 类 树 通 常 应 用 
于 分 类 的 (通常 是 二 元 的 ) 输出 变量 ， 比 如 是 或 否 、 购 买 或 不 购买 等 。 另 一 方面 ， 回 归 树 可 以 
应 用 到 数值 输出 变量 或 连续 输出 变量 上 ， 例 如 消费 品 的 预测 价格 或 者 订购 的 可 能 性 。 

决策 树 可 以 被 应 用 到 场景 。 它 们 可 以 很 容易 被 可 视 化 ,而 且 相 应 的 决策 规则 也 很 直观 。 

































































































































































| 规则 中 income 和 mortgage amount 
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7.1 决策 树 






































此 外 ， 由 于 结果 是 一 系列 的 if-then 逻辑 语句 ， 因 此 在 输入 变量 和 输出 变量 之 间 没 有 线性 〈 或 非 
线性 ) 关系 的 隐 含 假设 。 


7.1.1 决策 树 概览 


图 7.1 所 示 为 一 个 使 用 决策 树 来 预测 客户 是 否 会 购买 产品 的 例子 。 术 语 “ 分 支 ” 指 代 决 策 
的 结果 ， 以 连接 两 个 节点 的 线 来 表示 。 如 果 决 策 是 数值 ,“ 大 于 ”分 文通 消 都 放 在 右 侧 ,“ 人 小 于 ” 
分 支 放 在 左 侧 。 根 据 变 量 的 性 质 ， 其 中 一 个 分 支 可 能 需要 包含 “等 于 ”的 情况 。 
内 部 节点 (internal node ) 是 指 决策 或 测试 点 。 每 个 内 部 节点 对 应 一 个 输入 变量 或 夺 
端的 内 部 节点 也 叫做 根 节点 (root) A 7.1 中 的 决策 树 是 一 个 二 又 树 ， 其 中 每 个 内 部 节点 不 会 
有 两 个 以 上 的 分 支 。 节 点 的 分 岔 被 称 为 分 裂 (split )。 
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M RN e 根 节 点 一 一 顶端 内 部 节点 
深度 =1 上 分 支 一 一 测试 结果 
Ee | <------------- 内 部 节点 一 一 变量 决策 








< 一 叶子 节点 一 一 类 别 标签 








图 7.1 决策 树 例子 


有 时 候 决 策 树 的 一 个 节点 可 能 有 两 个 以 上 的 分 支 。 例 如 ， 如 果 输 入 变量 Weather 是 分 类 的 
有 三 种 选择 Sunny, Rainy (N )、Snowy 一 一 则 决策 树 中 的 相应 节点 Weather 可 能 分 别 
三 种 分 支 ， 其 标签 分 别 为 Sanny、Rainy 和 Snowy. 
一 个 节点 的 深度 〈depth ) 是 从 根 节 点 到 该 节点 所 需 的 最 少 步 数 。 在 图 7. 
Income 和 Age 的 深度 都 是 1， 而 树 底部 的 4 个 节点 的 深度 是 2。 
叶子 节点 (leaf node ) 在 树 中 最 后 分 支 的 未 端 ,它们 表示 类 别 标签 一 一 所 有 先前 决策 的 结果 。 
从 根 节 点 到 叶子 节点 的 路 径 包 含 了 一 系列 在 各 种 内 部 节点 上 所 做 的 决策 。 
在 图 7.1 rh, 根 节点 通过 Gender 测试 分 裂 成 两 个 分 支 。 右 侧 的 分 文 包 含 了 那些 Gender 变量 
为 Male 的 所 有 记录 ， 而 左 侧 的 分 支 包含 了 那些 Gender 变量 为 Female 的 所 有 记录 ,并 创建 了 深 
PEA 1 的 内 部 节点 。 每 个 内 部 节点 成 为 一 棵 子 树 的 根 节 点 ， 而 且 每 个 节点 的 最 佳 测 试 是 独立 了 
其 他 内 部 节点 来 确定 的 。 左 手边 (LHS ) 的 内 部 节点 基于 Income 变量 的 问题 进行 分 裂 ， 以 创建 
深度 为 2 的 叶子 节点 ， 而 右手 边 ( RHS ) 的 节点 基于 Age 变量 的 问题 进行 分 裂 。 
图 7.1 中 的 决策 树 显示 了 收入 等 于 或 者 小 于 $45,000 的 女性 和 年 龄 小 于 或 等 于 40 岁 的 男性 
被 分 类 成 会 购买 产品 的 人 群 。 在 遍历 决策 树 以 后 ， 发 现 女 性 的 年 龄 与 决策 无 关 ， 而 男性 的 收入 
与 决策 无 关 。 
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第 7 章 高 级 分 析 理 论 与 方法 : 分 类 








































































































决策 树 在 实践 中 得 到 了 广泛 使 用 。 例 如 ， 要 将 动物 分 类 ， 需 要 回答 问题 (比如 是 冷血 还 是 
温 血 动物 ， 是 否 是 哺乳 动物 ) 来 到 达 特 定 的 分 类 。 男 一 个 例子 是 医生 在 庆 

症状 检查 列表 。 视 频 游戏 中 的 人 工 智 能 引 获 通常 使 用 决策 树 来 控制 游戏 角色 的 自主 行为 ， 以 应 
对 各 种 情况 。 零 售 商 可 以 使 用 决策 树 来 划分 客户 或 者 预测 市 场 和 促销 活动 的 反应 率 ( response 
rate )。 金 融 机 构 可 以 用 决策 树 来 帮助 决定 是 应 批准 还 是 拒绝 贷款 申请 。 在 批准 贷款 的 例子 中 ， 
计算 机 使 用 逻辑 语句 if-then 来 预测 是 否 客户 会 拖欠 贷款 。 对 于 那些 结 末 明确 ( 强 ) 的 客户 ,不 
需要 人 为 干预 ;对 于 那些 没有 产生 明确 响应 的 观测 ， 则 需要 人 为 决策 。 

通过 限制 分 裂 点 的 数量 可 以 创建 短 树 。 短 树 经 党 作为 集成 方法 (ensemble method ) 的 组 
件 (component ) C 同时 也 称 为 弱 学 习 器 [weak learners] 或 基础 学 习 器 [base learner] )。 集 成 方法 
采用 多 重 预测 模型 进行 投票 ， 并 基于 投票 的 组 合 来 做 出 决策 。 一 些 流行 的 集成 方法 包括 随机 
森林 (random forest) [4], 4248 (bagging ) 和 提升 (boosting ) [5]。7.4 节 中 将 详细 介绍 这 些 
集成 方法 。 
慨 简单 的 短 树 称 为 单 层 决策 树 ( decision stump ), 这 种 决策 树 的 根 节 点 直接 连接 到 叶子 节点 。 
单 层 决策 树 根据 单个 输入 变量 的 值 来 做 出 预测。 图 7.2 中 显示 了 一 个 单 层 决策 树 ， 它 通过 花 洲 
的 宽度 来 分 辨 两 种 高 尾 花 。 图 中 显示 ， 如 有 果 花 瓣 宽度 小 于 1.75 厘米 ， 就 是 变色 高 尾 ; 否则 ， 就 
EAE MSE. 
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图 7.2” 单 层 决策 树 例子 


为 了 解释 决策 树 是 如 何 工作 的 ， 考 虑 这 样 一 个 案例 一 一 银行 想 将 它 的 定期 存 球 产品 ( 例如 
凭证 式 存 款 ) 推销 给 合适 的 客户 。 鉴 于 客户 人 群 和 客户 对 之 前 电话 调研 的 反馈 ， 银 行 的 目标 是 
测 哪 类 客户 会 订购 凭证 式 存款 产品 。 这 里 使 用 的 数据 集 基 于 一 个 葡萄 牙 银行 的 定向 营销 活动 
中 收集 的 原始 数据 集 , 这 个 营销 活动 在 More 等 人 的 工作 中 有 说 明 [6]。 图 7.3 所 示 为 一 个 修改 过 
的 银行 营销 数据 集 的 子 集 。 此 数据 集 包括 了 从 原始 数据 集中 随机 抽取 出 来 的 2000 个 实例 , 每 一 
个 实例 对 应 于 一 个 客户 。 为 了 让 示例 更 加 简单 ， 子 集 仪 仅 保留 了 以 下 的 分 类 变量 : (1 ) job CE 
作 )、(2 ) marital ( 婚姻 状态 )、( 3 ) education (教育 ) 等 级 、(4 ) 是 否 有 default ( 信用 违约 )、 
(5) 是 否 有 housing (EEK) (6) 客户 当前 是 否 有 1loan (个 人 信贷 )、(7 ) contact ( 联系 人 ) 
类 型 (8 ) 先 前 市 场 营销 活动 的 结果 ( poutcome ) (9 ) 客 户 是 否 实际 签约 了 定期 存款 ( subscribed )。 
属性 (1) 到 (8 ) 是 输入 变量 , (9) 是 结果 。Subscribed 结果 的 值 是 yes ( 意思 客户 会 签约 凭证 
式 存款 ) 或 者 no (意思 是 客户 不 会 签约 任 证 式 存款 )。 上 面 列 出 的 所 有 变量 都 是 分 类 的 。 
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7.1 决策 树 








job 

1 management 

2 entrepreneur 

3 services 

4 management 

5 management 

6 management 

7 entrepreneur 

B admin. 

9 blue-coller 
10 management 
11 blue-collar 
12 management 
13 blue-collar 
14 retired 
15 management 
16 retired 


17 unemployed 
18 management 
19 management 
20  blue-collar 
21 management 
22  blue-collar 
23  blue-collar 
24 admin. 

25  blue-collar 
26  blue-collar 
27  housemaid 
28 technician 





marital 
single 
married 
divorced 
married 
married 
single 
married 
married 
married 
married 
married 
divorced 
married 
married 
single 
married 
married 
divorced 
married 
married 
divorced 
divorced 
single 
single 
married 
single 
married 


married 


education 
tertiary 
tertiary 
secondary 
tertiary 
secondary 
tertiary 
tertiary 
secondary 
secondary 
tertiary 
secondary 
secondary 
secondary 
secondary 
tertiary 
secondary 
secondary 
tertiary 
tertiary 
secondary 
tertiary 
secondary 
secondary 
secondary 
secondary 
secondary 
secondary 
tertiary 


default housing loan 


no 
no 
no 
no 
no 
no 
no 
no 
no 
yes 
no 
no 
no 
no 
no 
yes 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 


no 


yes 
yes 
no 

yes 
yes 
yes 
yes 
no 

yes 
no 

yes 
no 

yes 
no 

yes 
yes 
yes 
yes 
yes 
yes 
yes 
yes 
yes 
no 

yes 
yes 
no 


no 
yes 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
no 
yes 
no 
no 
no 
no 
no 
no 


no 


contact 
celluler 
cellular 
cellular 
cellular 
unknown 
unknown 
cellular 
cellular 
cellular 
cellular 
cellular 
unknown 
cellular 
cellular 
cellular 
cellular 
telephone 
cellular 
cellular 
unknown 
cellular 
cellular 
cellular 
unknown 
cellular 
unknown 
cellular 


cellular 


poutcome 


unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
failure 
unknown 
other 

unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
unknown 
foilure 
failure 
failure 
unknown 
foilure 
unknown 
unknown 


unknown 


subscribed 
no 


no 





图 7.3 ”银行 营销 数据 集 的 子 集 














数据 集 的 摘要 显示 了 以 下 统计 数 志 






































6 个 值 ， 其 他 值 则 显示 为 《Other )。 























Job marital 
blue-collar :435 divorced: 
management :423 married : 
technician :339 single : 
admin. :235 
services :168 
retired : 92 
(Other) :308 
housing loan 
no : 916 no $ 
yes :1084 yes : 
subscribed 
no :1789 


yes: 211 

















education 
228 primary 


1201 secondary 
571 tertiary 


unknown 


contact 


1717 cellular 
283 telephone 


unknown 





时 。 为 了 方便 显示 ， 摘 要 








default 
335 no :1961 
1010 yes: 39 
564 
91 
month 
1287 may :581 
136 jul :340 
577 aug :278 
jun 2232 
nov :183 
apr :118 


(Other) :268 


包括 了 每 个 














是 


Poutcome 
failure : 210 
other £o 498 
success : 58 
unknown :1653 





高 级 分 析 理 论 与 方法 : 分 类 



































job 属性 包括 了 以 下 从 
admin. blue-collar entrepreneur housemaid 
235 435 70 63 
management retired self-employed services 
423 92 69 168 
student technician unemployed unknown 
36 339 60 10 
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存款 的 客户 是 总 人 口 的 1789/2000. 
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数据 集 上 的 一 棵 决策 树 。 树 的 根 节 点 显示 了 还 没有 签约 凭证 式 





poutcome = failure,other,unknown ea 
P di S 
ad poutcome = success 
一 -一 一 
no ys \ 
1763/1942 | ite \ 32/58 J b 
education = secondary,tertiary TS 
» N 
7 d education = primary,unknown 


a no | 
26/50, SS 


A 
job = admin.,blue-collar, management,retired,services,technician 


job = self-employed,student,unemployed 


at 
( yes 
(5/5 


EA 
7.4 使 用 决策 树 来 预测 客户 是 否 会 签 
决策 树 算 法 会 从 剩余 
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属性 中 选择 最 能 提供 信息 
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(E S EEREXE3ESE aa (entropy ) 和 信息 增益 ( information gain ) 等 度量 了 
节 见 7.1.2 5, 
在 第 一 个 分 裂 点 ， 决 策 树 算法 选择 了 poutcome 属性 。 有 两 个 闻 点 的 深度 都 是 1。 左 侧 的 节 


















































点 是 一 个 叶子 节点 ,代表 在 之 前 的 1 
户 群 体 。 在 这 个 群体 的 1942 个 客户 中 ， 
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1763 个 还 没有 签 




















活动 中 联系 的 结果 为 failure, other 或 unknown 的 
签约 作证 式 存款 。 
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右 侧 的 节点 代表 简 余 的 客户 ， 其 在 之 前 的 市 场 营销 活动 中 联系 的 结果 为 success。 对 于 这 个 
节点 来 说 ，58 个 客户 中 有 32 个 客户 签约 了 和 凭证 式 存款 。 

侧 这 个 节点 基于 教育 等 级 进一步 分 裂 成 两 个 节点 。 如 果 education 等 级 是 secondary 或 者 

tertiary, 末 、50 个 客户 中 有 26 个 客户 没有 签约 凭证 式 存款 。 如 果 教 育 等 级 是 primary 或 unknown， 


























则 这 8 个 客户 都 签约 了 。 





















































E admin, blue collar, management, 
































深度 为 2 的 左 侧 节 点 基于 属性 job 进一步 分 裂 。 如 果 职 业 是 
retired, services 或 者 technician, 那么 45 个 客户 中 有 26 个 没有 签约 。 如果 职业 


























户 都 签约 了 。 





student 或 者 unemployed ， 那 么 这 5 个 客 





E Self-employed 、 





7.1 决策 树 





7.1.2 通用 算法 


通常 情况 下 ,决策 树 算法 的 目的 是 从 训练 集 S 中 建立 树 T. AR S 中 的 所 有 记录 都 属于 类 
| C (例如 subscribed = yes), 或 者 如 果 S 足够 纯净 (大 于 预 设 的 闷 值 )， 那 么 节点 就 会 被 作为 
叶子 节点 ， 并 为 其 分 配 标签 C。 节 点 的 纯净 度 (purity) 定义 为 它 属于 相应 类 别 的 概率 。 例 如 ， 
在 图 7.4 H, WIA E a mre 此 根 节 点 对 于 subscribed=yes 类 
别 仅仅 拥有 10.5$ 多 的 纯净 度 ， 而 它 对 于 subscribed = no 类 别 拥有 89.45% 的 纯净 度 。 









































































































































un 


























































































































n 
























































一 



















































































































































































































































































相 比 之 下 ， 如 果 不 是 S 中 的 所 有 记录 都 属于 类 别 C， 或 玉 ieee JEDE E 
择 下 一 个 最 能 提供 信息 的 属性 A 持续 时 间 、 婚 姻 状况 等 ) 和 部 分 S( 这 部 分 S 与 A e 相关 ) 
算法 对 于 S 的 子 集 递 归 地 构建 子 树 Ti, 7 … 直 到 满足 下 列 任意 一 种 n 

e 树 中 所 有 的 叶子 节点 满足 最 小 纯净 度 阔 值 。 


























e ， 树 不 能 根据 预 设 的 最 小 纯净 度 国 值 进 一 步 分裂 。 
e 满足 了 任何 其 他 的 停止 标准 (比如 树 的 最 大 深度 )。 
构建 诀 策 树 的 第 一 步 是 选择 最 能 够 提供 信息 的 属性 。 一 种 通常 的 做 法 是 使 用 基于 精 的 方法 
来 识别 最 能 够 提供 信息 的 属性 ， 这 种 方法 被 ID3 (Iterative Dichotomiser 3 ) [7] 和 C4.5[8] 等 决策 
树 学 习 算法 采用 。 箭 方法 基于 两 个 基础 的 度量 来 选择 最 能 提供 信息 的 属性 。 

e Ji. 用 来 衡量 属性 的 杂 
e 信息 增益 : 用 来 衡量 属 
给 定 分 类 和 和 对 应 的 标签 xeX, P(x) 表 示 x 的 概率 , M] X BJAS 五 .的 定义 如 公式 7.1 所 示 。 

Hy = 一》 PCODlo gP) (7.1) 
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性 的 纯净 度 
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公式 7.1 显示 了 当 所 有 的 PW) 是 0 或 1 的 时 候 , AH. 7J 05 IFI (true BÈ false ), “4 
每 个 标签 x 的 概率 POE 0 或 者 1 的 时 候 ， 玉 等 于 0。 另 一 方面 ， 当 所 有 的 分 类 标签 具有 相等 
的 概率 时 ， 厂 ,获得 最 大 粹 。 对 于 二 元 分 类 ， 如 果 所 有 分 类 标签 的 概率 是 50/50, MPA H,-1. Wü 
9 最 大 值 随 着 可 能 结果 的 数量 的 增加 而 增 为 
我 们 来 考虑 一 个 抛 硬 币 的 二 元 随机 变量 案例 。 在 这 个 例子 中 ， 硬 币 出 现 正 面 或 反面 的 概率 
, 知 但 不 EA o RRR 7.5 所 示 。x=1 表示 正面 ，x=0 表示 反面 。 当 硬币 是 公平 的 
时 候 ， 下 一 次 投 拨 的 未 知 结果 的 炉 最 大 。 也 就 是 说 ， 当 正面 和 反面 有 相等 的 概率 
P(x=1)=P(x=0)=0.5 It, Jii H,2—(0.5 x log20.5+0.5 x log20.5)=1。 男 一 方面 ， 如 果 硬 币 不 是 公平 的 ， 
那么 正面 和 反面 的 概率 不 会 相等 ， 而 且 会 有 更 小 的 不 确定 性 。 在 一 个 极端 的 例子 中 ， 当 投掷 到 
E 面 的 概率 等 于 0 或 者 1 SINE, TSE) 0. DRUG, ASIDE PSEA RE 0, o 
于 两 个 类 别 是 完全 对 等 事件 的 情况 下 等 于 1 (硬币 为 正面 或 反面 ,或 者 是 与 否 )。 
对 于 之 前 提 到 的 银行 营销 案例 中 ， 输 出 变量 是 subscribed. FEMME mp" HEER, 
BI Aywscribeas 如 前 文 所 述 ，P(subscribed=yes)=0.1055，P(subscribed=no)=0.8945。 根 据 等 式 7-1, 
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AERIS Hubs -0.1055:10g30.1055 — 0.8945-10g50.8945 70.4862. 
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7.5 META, X=1 表示 正面 




















































































































































































































Ga nen ot MESE 
件 Hyx SEPA GE X IN Y RRN, TERRE SCANS 7.2 所 示 。 
Hyx = FAORI 
(7.2) 


- ES P(x) | PC | xlo. gP(y |) 


Vxex VyeY 


E ERITEM RU, Bee PE T BUE contact, 957, X={cellular, telephone, unknown}. 
contact HJP ERI TAI = “MAL 
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X 7.1 列 出 了 contact 属性 相关 的 概率 。 表 的 第 一 
行 包 含 了 条 件 为 contact 时 ， 类 别 标签 的 概率 。 


表 7.1 RAB 








Lm 


的 概率 。 按 下 来 下 





J 显示 了 属性 的 每 个 


>v 


















































Cellular Telephone Unknown 
P(contact) 0.6435 0.0680 0.2885 
P(subscribed=yes | | 0.1399 0.0809 0.0347 
contact) 
P(subscribed=no | contact) | 0.8601 0.9192 0.9653 








contact 属性 的 条 件 粒 的 计算 如 下 所 示 。 

Hsubscribedjcontact 710.6435 * ( 0.1399 - 1og50.13994-0.8601 - log,0.8601 ) 
«0.0680 - ( 0.0809 - log,0.0809+0.9192 - log,0.9192 ) 
40.2885 - ( 0.0347 * log,0.0347+0.9653 * log,0.9653 ) ] 
=0.4661 

括号 中 是 在 单个 contact (HASTY P 2SBUERAEBSABBJTE AL. ER AR PE zat) Fk T ERU 
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Jj, MUSAE VO H subscribedmarita <A subscribeao 2A ESTE ZG RAB CERIN, ATH] NT AERA. TERA 
MOLE, “RMESSER MASE, AREAS UI SET SERIA 

He Eas XE C7 ARIS SPEAR TERT 25, WSs 7.3 所 示 。 

in, = Hs — Hs (7.3) 


HH, contact 属性 的 信息 增益 如 公式 7.4 所 示 。 
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InfoGain =H 


contact subssribed — H contact|subscribed 


= 0.4862 — 0.4661 = 0.0201 





















































信息 增益 比较 了 分 裂 前 的 父 节 点 纯净 度 等 级 与 分 裂 后 的 的 子 节 点 的 纯净 度 等 级 。 每 一 次 分 
裂 时 , 信息 增益 最 大 的 属性 则 被 认为 是 最 能 提供 信息 的 属性 。 信 息 增益 表明 一 个 属性 的 纯净 度 。 
输入 变量 的 信息 增益 如 表 7.2 所 示 。 属 性 poutcome 有 最 大 的 信息 增益 ， 是 最 能 提供 信 
的 变量 。 因 此 ，poutcome 被 选中 做 为 决策 树 中 第 一 个 分 裂 点 ， 如 图 7.4 所 示 。 在 表 7.2 vB, dei 
增益 的 值 在 量 级 上 很 小 ， 但 是 相对 的 差异 是 重点 。 在 每 一 轮 ， 算法 在 具有 最 大 信息 增益 的 属 
E 上 进行 分 裂 。 
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4712 计算 第 一 次 分 裂 时 输入 变量 的 信息 增益 


























属性 信息 增益 
poutcome 0.0289 
contact 0.0201 
housing 0.0133 
job 0.0101 
education 0.0034 
marital 0.0018 
loan 0.0010 
default 0.0005 





检测 显著 的 分 裂 点 

经 常 有 必要 衡量 决策 树 中 分 裂 点 的 显著 性 ， 特 别 是 当 信 息 增益 很 小 时 〈 如 表 7.2 中 那样 )。 

让 Na 和 Ns 表示 父 市 点 中 A 类 和 了 B 类 的 数量 。 让 NAr 表 示 A 类 到 左边 子 节 点 的 数量 , Ner den B 
类 到 左边 子 市 点 的 数量 ，Nar 表示 B 类 到 右边 子 节 点 的 数量 ，NeR 表示 B 类 到 右边 于 市 点 的 数量 。 

iE PL 和 Pr 分 别 表示 左边 和 右边 节点 的 数据 比例 。 
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Pmt it POR. K, stt ERAGE, TRA SEAS 




































































(Na Na) | (Na NA | (MA — Na | (Nar — Nor) 


























K = 7 T 7 T T 
Na Ny, Nan Nor 
LH 
Ni =N xp 
Ng = Ns Xp 
Ng =N,X Pp 
Nor =N; X Pr 




























































































如 果 K 的 值 很 小 ， 那么 从 分 裂 点 中 获得 的 信息 增益 不 显 车 。 如 果 K 的 值 很 大 ， 这 意味 着 来 
自分 裂 点 的 信息 增益 是 显著 的 。 
例如 ， 对 图 7.4 中 决策 树 的 poutcome 变量 进行 第 一 次 分 裂 。N4=1789、Ng=211、Nar=1763、 
Ng, = 179、Nar=26, Ngr=32。 
下 面 是 左边 和 右边 节点 的 数据 比例 。 


_1942 _58/ - 
P= ann 0.971 和 pa= S 000 - 0.029. 


在 数据 是 随机 的 情况 下 ，Nw 、Nw > Nag 和 Na 表示 每 个 类 分 别 在 左 侧 和 右 侧 节点 的 数量 
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N = 1737.119, Np, -204.881, N,,-2 51.881, N,,- 6.119 


姑 此 ，K=126.0324， 这 将 意味 着 在 poutcome 上 进行 分 裂 是 显著 的 。 
在 每 次 分 裂 之 后 ， 算 法 会 查看 叶子 节点 的 所 有 记录 ， 然 后 会 基于 这 些 记 录 再 次 计算 每 个 候 
选 属性 的 信息 增益 。 下 一 次 分 裂 将 在 信息 增益 最 高 的 属性 上 进行 。 所 有 分 型 结束 后 ， 一 条 记录 
上 于 一 个 叶子 节点 据 有 具体 实现 ,一 个 属性 可 能 出 现在 树 的 多 个 分 裂 点 中 。 这 个 划 
记录 然后 找到 最 能 提供 信息 的 属性 的 过 程 会 不 断 重复 ， 直 到 节点 足够 纯净 ， 或 属性 分 裂 没有 
iio 7j 的 叶子 节点 都 属于 某 个 分 类 的 时 候 (比如 ，subscribed=yes ) 或 

有 相同 的 属性 值 的 时 候 ， 也 可 以 停 
在 之 前 的 银行 营销 案例 中 ， 为 了 保证 简单 ， 数 据 集 只 是 包含 了 类 别 变 量 。 假 设 数据 集 现 在 
包含 duration 连续 变量 一 一 表示 与 银行 的 最 后 一 次 通话 所 持续 的 秒 数 。 连 续 变 量 需要 被 划分 成 
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东 数 据 中 连续 
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日 具有 最 高 信息 增益 的 不 相交 的 区 域 。 一 种 暴力 破解 (brute-force ) DÆI 



































































































































































































































变量 的 每 个 值 都 当做 候选 的 分 裂 点 位 置 。 这 种 暴力 破解 方法 的 计算 效率 很 低下 。 为 了 降低 计算 
复杂 度 ， 训 练 记录 可 以 根据 通话 持续 时 间 进行 排序 ， 并 将 两 个 相 邻 的 已 排序 的 值 之 间 的 中 点 作 
为 候选 的 分 裂 点 。 例 如 ， 如 果 持续 时 间 包含 已 排序 的 值 (140、160、180、200} ， 那 分 裂 候选 点 










































































分 别 是 150、170、190。 





7.1 决策 树 


























图 7.6 所 示 为 在 考虑 了 duration 属性 时 , 决策 树 的 样子 。 根 节点 分 裂 成 两 部 分 duration «456 
秒 的 客户 和 duration =456 秒 的 客户 。 注 意 出 于 美观 考虑 , 图 中 job 和 contact 属性 的 标签 用 缩写 


表示 ^o 








oe 
































uuy 
































no 
1789 / 2000 







duration « 456 


no 
1615 / 1721 





duration >= 456 


no 
174/279 





poutcome = fir,oth,unk contact = tip,unk 
poutcome = scc contact = cll 
no no no no 
1589 / 1670 20/51 74/95 100 / 184 
“7 < 150 \ duration < 1004 n duration « 700 
Gumon >= 150 duration >= 1004 duration >= 700 
Ber yes no yes 
ta HT my a2 8/13 68 / 104 48/80 
job = ad.,hsm,rtr,unm job = ad.,bl-,hsm,mng,sl-,srv,std,tch,unm,unk 


: 
job = bl-,mng,srv,tch & ee 
(m ) 
(m ) /8 | / 95 


根据 图 7.6 中 的 决策 树 ， 新 客户 是 否 会 签约 定期 存款 的 预测 将 变 得 很 容易 。 比 如 ， 对 于 表 
7.3 中 给 定 的 一 个 新 客户 的 记录 ， 经 过 预测 ， 该 客户 会 签约 定期 存 牧 。 决 策 树 的 遍历 路 径 如 下 。 
€ duration = 456 
@ contact = cll (cellular) 
€ duration< 700 


€ job = ent (entrepreneur), rtr (retired) 

















图 7.6 具有 duration 属性 的 决策 树 








































































































表 7.3 一 个 新 客户 的 记录 
Job Marital | Education | Default | Housing | Loan | Contact | Duration | Poutcome 





retired | married | secondary no yes No cellular 598 unknown 


71.3 ”决策 树 算 法 


有 多 种 算法 可 以 实现 决策 树 ， 构 建树 的 方法 因 不 同 的 算法 有 所 不 同 。 一 些 流 行 的 算法 包括 
ID3[7]、C4.5[8] 和 CART[9]。 
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1. ID3 算法 
ID3 (Iterative Dichotomiser 3 ) [7] 是 最 早 的 决策 树 算法 之 一 ， 由 John Rose Quinlan 开发 。 让 A 
作为 一 组 分 类 输入 变量 , P 作为 输出 变量 (或 者 预测 分 类 ), 然后 T 作为 训练 集 。 ID3 算法 描述 如 下 。 
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1 ID3 (A, P, T) 

2 i£f T o- 

3 return _ 

4 if all records in T have the same value for P 

5 return a single node with that value 

6 if A__ 

gi return a single node with the most frequent value of P in T 

8 Compute information gain for each attribute in A relative to T 

9 Pick attribute D with the largest gain 

10 Let { dı, d2...dm ) be the values of attribute D 

11 Partition T into { Tı, T2..Im ) according to the values of D 

12 return a tree with root D and branches labeled di, d2...dm 
going respectively to trees ID3(A-(D), P, Tı), 
ID3(A-(D), P, T2), . . . ID3(A-(D), P, Tm) 














4.5 算法 [8] 在 最 初 ID3 算法 的 基础 上 提出 了 多 项 改进 。C4.5 算法 可 以 处 理 缺 失 的 数据 。 如 
训练 记录 包含 未 知 的 属性 值 ，C4.5 只 根据 有 确定 属性 值 的 记录 计算 属性 的 信息 增益 。 
C4.5 算法 同时 支持 分 类 属性 和 连续 属性 。 连 续 变 量 的 值 会 进行 排序 和 分 区 。 对 于 每 个 分 
(partition ) 中 的 相关 记录 ， 算 法 会 计算 信息 增益 ， 并 选择 最 大 增益 的 分 区 用 作 下 一 次 分 裂 。 
ID3 算法 可 能 会 构建 一 棵 深 而 复杂 的 树 ,导致 过 度 拟 合 (7.1.4 前 。C4.5 算法 使 用 了 名 为 前 
T (pruning ) 的 自 下 而 上 技术 解决 了 ID3 中 过 度 拟 合 的 问题 ， 其 中 剪 校 技 术 通 过 移 除 最 少 访问 
的 节点 与 分 支 来 简化 树 。 
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3. CART 
CART ( Classification And Regression Tree ) [9] 是 一 种 决策 树 的 特定 实现 ， 尽 管 它 经 常 被 当 
作 决 策 树 的 一 个 通用 缩写 。 
Eq C4.5, CART 可 以 处 理 连续 属性 。 与 C4.5 HE FASE AU EE UJ SEHE IS. (rank tests ) 
Ale], CART 使 用 基尼 多 样 化 指数 ， 该 指数 的 定义 如 公式 7.5 所 示 。 
Gini, =1— Y, P(x)’ (7.5) 


Ej C4.5 使 用 了 停止 规则 不 同 ，CART 构建 了 一 个 子 树 序 列 ， 然 后 使 用 交叉 验证 来 估计 每 个 
子 树 的 误 分 类 代价 ， 然 后 选择 一 个 代价 最 低 的 子 树 。 
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7.4.4. 评估 决策 树 


决策 树 使 用 贪心 算法 (greedy algorithm )， 因 为 算法 总 是 选择 在 当时 看 起 来 最 好 的 选项 。 在 
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每 一 步 ， 算 法 选择 使 用 哪个 属性 来 分 裂 余下 的 记录 。 这 种 选择 可 能 不 是 整体 最 好 的 ， 但 是 它 能 
呆 证 至 少 在 那 一 步 是 最 好 的 。 这 个 特性 也 加 强 了 决策 树 的 效率 。 然 而 ， 一旦 选择 了 一 个 不 好 的 
分 裂 点 ， 就 会 对 剩余 的 树 造 成 负面 影响 。 为 了 解决 这 个 问题 ， 可 以 使 用 集成 技术 ( 例如 随机 森 
$K Random Forest ) 随机 选择 分 裂 点 或 者 甚至 随机 选择 数据 ， 然 后 产生 一 个 多 重 树 结构 。 这 些 树 
随后 对 每 个 分 类 进行 投票 ， 获 得 最 多 票数 的 类 被 选中 为 预测 分 类 。 

有 几 种 方法 可 用 来 评估 决策 树 。 首 先 ， 评 估 树 的 分 裂 是 否 有 意义 。 与 领域 专家 一 起 对 决策 
规则 进行 精确 地 验证 ， 然 后 确 员 

接 下 来 ， 查 看 树 的 深度 和 节点 。 过 多 的 层 和 只 有 少数 成 员 的 节点 可 能 是 过 度 拟 合 的 信号。 
在 过 度 拟 合 中 ， 模 型 能 很 好 地 拟 合 训 练 集 ， 但 是 在 测试 集中 的 新 样本 上 却 表现 糟糕 。 图 7.7 所 
示 为 一 个 过 度 拟 合 模型 的 性 能 表现 。 图 中 x 轴 表 示 数 据 量 ，Y 轴 表 示 误 差 。 蓝 色 的 曲线 是 训练 
集 ， 红 色 的 曲线 是 测试 集 。 灰 色 垂 直线 的 左 侧 表示 模型 在 测试 集 上 的 预测 恨 好 。 但 是 在 灰色 线 
的 右 侧 ， 模 型 在 测试 集 上 表现 越 来 越 糟糕 ， 因 为 有 越 来 越 多 未 见 过 的 数据 出 现 。 
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图 7.7 ”一 个 过 度 拟 合 的 模型 ， 它 在 训练 集 上 运行 良好 ， 但 是 对 未 见 过 的 数据 则 表现 糟糕 


对 于 决策 树 学 习 来 说 ， 过 度 拟 合 可 以 由 缺乏 训练 数据 或 训练 集中 存在 偏 置 数据 所 造成 。 有 
两 种 方法 [10] 可 以 帮助 避免 决策 树 学 习 中 的 过 度 拟 合 。 
e 当 达 到 所 有 训练 数据 被 完美 分 类 的 那个 点 之 前 ， 提 前 停止 树 的 增长 。 
e 建 完 树 后 ， 使 用 错误 率 降 低 剪 枝 ( reduced-error pruning ) 和 规则 后 前 枝 (rule-based post 
pruning ) 等 方法 对 树 进行 后 剪 枝 ( post-prune )。 
最 后 ， 还 有 许多 应 用 于 分 类 器 的 标准 诊断 工具 可 以 用 来 帮助 评估 过 度 拟 合 。 这 些 工具 会 在 
73 市 中 讨论 。 
决策 树 的 计算 代价 低 ， 并 且 很 容易 对 数据 进行 分 类 。 决 策 树 的 输出 很 容易 解释 为 固定 的 简 
单 测试 序列 。 许 多 决策 树 算法 都 可 以 显示 每 个 输入 变量 的 重要 性 。 例 如 信息 增益 这 种 基本 度量 
在 绝 大 多 数 的 统计 软件 包 中 都 有 提供 。 
决策 树 可 以 处 理 数值 和 分 类 属性 ， 并 旦 在 有 元 余 和 关联 变量 的 情况 下 很 健壮 。 决 策 树 可 
义 处 理 有 大 量 不 同 值 的 分 类 属性 ， 例 如 电话 号 码 中 的 国家 代码 。 决 策 树 还 能 够 处 理 对 结果 有 
非 线性 影响 的 变量 ， 所 以 它 在 处 理 高 度 非 线性 问题 的 时 候 ， 比 线性 模型 ( 例如 线性 回归 和 逮 
辑 回 归 ) 更 有 效 。 决 策 树 天 生 就 能 处 理 变量 间 的 交互 。 树 中 的 每 个 节点 取决 于 树 中 的 前 节点 
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( preceding node )。 

在 决策 树 中 , 决策 Zi. 7.8 是 一 个 通过 两 个 属性 (X RI XD) A 4 MEA, 4, 
As, AYRE XL 5 个 矩形 决策 面 (A,B，C，D 和 了 E) 的 例子 。 图 的 右 侧 是 相应 的 决策 树 。 决 
策 面 对 应 树 中 的 叶子 节点 ， 可 以 从 根 节 点 开始 ， 通 过 一 系列 基于 属性 值 的 决策 遍历 到 达 。 决 策 
树 的 决策 面具 能 是 和 坐标 轴 对 齐 的 。 
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图 7.8 ”决策 面 只 能 是 和 坐标 轴 对 齐 的 


决策 树 的 结构 对 训练 集 的 细小 变化 很 敏感 。 虽然 数 据 集 

策 树 可 能 非常 不 同 。 如 果树 太 深 ， 则 可 能 发 生 过 度 拟 合 ， 因 为 
练 数据 。 
如 果 数 据 集中 包含 了 许多 不 相干 的 变量 ， 那 么 决策 树 不 是 个 好 的 选择 。 这 和 决策 树 在 有 元 
太 量 的 情况 下 很 健壮 有 所 不 同 。 如 果 数 据 集 包 含 见 余 变 量 ， 生 成 的 决策 树 只 会 包含 见 
4 个 ， 因 为 决策 树 算法 无 法 通过 包含 更 多 的 见 余 变量 来 获得 信息 增益 。 在 男 一 方 
相 ， 如 果 数 据 集 包 含 不 相干 的 变量 ， 而 且 这 些 变 量 磁 巧 又 被 选中 作为 树 的 分 裂 点 ， 则 决策 树 可 

























































































于 不 同 子 集 构建 的 两 棵 决 


次 分 裂 碱 少 了 后 续 分 裂 中 的 训 
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能 生长 得 过 大 ,还 可 能 在 每 个 分 裂 点 包含 太 少 数据 ( 很 有 可 能 发 生 过 度 拟 合 )。 这 个 问 
题 ， 可 以 在 数据 预 处 理 阶 段 进行 特性 选择 来 消除 不 相干 的 变量 。 










































































尽管 决策 树 能 够 处 理 相 关联 的 变量 ， 但 是 当 训 练 集中 绝 大 多 数 变 量 都 是 关联 的 ， 决 策 树 就 
不 太 合 适 ， 因 为 很 有 可 能 发 生 过 度 拟 合 。 为 了 克服 深 树 的 不 稳定 性 和 潜在 的 过 度 拟 合 ， 一 种 方 
法 是 可 以 合并 几 个 随机 浅 层 决策 树 (randomized shallow decision tree ) 的 结果 名 为 随机 森林 
[4] 分 类 器 的 基本 思想 一 一 或 者 使 用 集成 方法 来 组 合 儿 个 弱 学 习 器 ( weak learner ) 用 于 更 好 的 分 
类 。 这 些 方法 已 经 证 实 相 比 单 决 策 树 能 够 提高 预测 能 力 。 
对 于 二 元 决策 ， 如 果 训 练 数 据 集中 的 记录 针对 每 一 个 结果 都 有 相同 的 概率 ， 决 策 树 的 效果 
更 好 。 换 句 话说 ， 根 节点 对 每 种 分 类 有 50% 的 可 能 性 。 当 从 每 种 可 能 的 分 类 中 随机 选择 相同 
数量 的 训练 集 记录 时 ， 会 发 生 这 种 情况 。 这 种 情况 可 以 降低 因 训 练 数 据 存 在 偏差 ， 而 导致 一 棵 
树 因 为 纯净 度 检验 而 过 早出 局 的 概率 。 
当 在 有 许多 变量 的 数据 集 上 使 用 例如 逻辑 回归 方法 的 时 候 ， 决 策 树 可 以 根据 信息 增益 帮助 
确定 那些 最 有 用 的 变量 ， 用 于 逻辑 回归 。 决 策 树 也 可 以 用 于 去 除 见 余 变 量 。 
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7.1.5 _R 中 的 决策 树 




































































4 os 




















fr R 语言 中 ,rpart BARE 


























在 R 中 ,首先 设 置 工作 


setwd("c:/") 
install.packages ("rpart. 



































plot") 


录 和 初始 化 软 伯 


library ("rpart") # load libraries 


library ("rpart.plot") 














工作 目录 中 包含 了 名 为 DTdata.csv 的 CSV XA 














包 。 


Tr 








7.1 决策 树 























LERET, PEE rpart.plot 用 来 绘制 树 。 本 节 的 剩余 部 分 将 
RA dE R 中 使 用 决策 树 和 rpartplot， 根 据 给 定 的 因素 如 天 气 趋 势 、 温 度 、 湿 度 和 风向 ， 来 
i 测 ET 1] 高 尔 夫 球 。 





























# install package rpart.plot 








Play,Outlook,Temperature,Humidity,Wind 


yes,rainy,cool,normal,FA 
no,rainy,cool,normal, TRU 
yes,overcast,hot,high,FA 
no,sunny,mild,high,FALSE 
yes,rainy,cool,normal,FA 
yes,sunny,cool,normal,FA 
yes,rainy,cool,normal,FA 
yes,sunny,hot,normal,FAL 
yes,overcast,mild,high,T 
no,sunny,mild,high, TRUE 





CSV 文件 中 包含 了 5 个 属性 : Play, Outlook, Temperature, Humidity 和 Wind, Play 会 是 





"Im 

















= it 





























LSE 
E 
LSE 


LSE 
LSE 
LSE 
SE 

RUE 



































play decision 























Play Outlook Temperature H 


1 yes rainy cool 
2 no rainy cool 
3 yes overcast hot 
4 no sunny mild 
5 yes rainy cool 
6 yes sunny cool 
7 yes rainy cool 
8 yes sunny hot 

9 yes overcast mild 
10 no sunny mild 














summary (play decision) 


显示 play. decision 的 概览 。 





显示 内 容 。 




















.文件 有 一 个 标题 行 , 然后 是 10 行 训练 数据 。 



































变量 (或 者 预测 类 )，Outlook Temperature, Humidity 和 Wind 作为 输入 变量 。 在 R HP, 
作 目 录 中 的 CSV 文件 中 读 取 数据 


play decision «- read.table("DTd 


ata.csv",header=TRUE, sep=",") 





umidity Wind 


normat 
normat 


high 
high 


normat 
normali 
normali 
normali 





high 
high 


FA 
TR 
FA 
FA 
FA 
FA 
FA 
FA 
TR 
TR 


Play Outlook Temperature Humidity Wind 


no :3 overcast:2 cool:5 


high :4 


Mode 


LSE 
UE 

LSE 
LSE 
LSE 
LSE 
LSE 
LSE 
UE 

UE 





:logical 
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yes:7 rainy :4 hot :2 normal:6 FALSE:7 
sunny :4 mild:3 TRUE :3 
NA's :0 
rpart 函数 构建 了 一 个 递归 分 区 与 回归 树 [9] 的 模型 .下 面 的 代码 片段 显示 如 何 使 用 rpart 函数 
来 构建 决策 树 。 




















fit «- rpart(Play ~ Outlook + Temperature + Humidity + Wind, 
method-"class", 
data-play decision, 
control-rpart.control(minsplit-1), 
parms-list (split='information') ) 




















rpart KAA 4 个 参数 。 第 一 个 参数 Play ~Outlook + Temperature + Humidity + Wind, 是 表 
示 模 型 可 以 基于 Outlook, Temperature, Humidity 和 Wind 属性 来 预测 Play 属性 。 第 二 个 参数 
method， 被 设置 为 “calss”， 表 示 构 建 一 个 分 类 树 。 第 三 个 参数 data， 指 定 了 包含 这 些 属性 的 数 
据 帧 。 第 四 个 参数 control 是 可 选 的 ， 来 控制 树 的 增长 。 在 前 面 的 例子 中 ， 
control=rpart.control(minsplit=1) 要 求 每 个 节点 在 尝试 分 裂 之 前 必须 要 有 至 少 一 个 观测 值 。 
minsplit=1 对 小 数据 集 有 意义 ， 但 是 对 于 大 数据 集 ，minsplit 可 以 设置 为 数据 集 规模 的 10% ， 以 
防止 过 度 拟 合 。 除 了 minsplit 以 外 ， 其 他 参数 也 可 以 用 来 控制 决策 树 的 构建 。 例 如 ， 
rpart.control(maxdepth=10,cp=0.001) 限 制 了 树 的 深度 不 能 大 于 10, 同时 每 次 分 裂 必 须 将 拟 合 的 整 
体 缺 失 减 少 为 原来 的 0.001。 最 后 一 个 参数 (parms ) 指定 了 用 于 分 裂 的 纯净 度 度量 。split AYE 
可 以 是 information ( 针对 信息 增益 ) 或 者 gini ( 针对 基尼 指数 )。 
输入 summary(fit) 来 生成 rpart 中 建立 的 模型 的 概览 。 
输出 中 包括 了 已 构建 决策 树 中 每 个 节点 的 概览 。 如 果 节 点 是 叶子 节点 ， 输 出 包括 预测 的 类 
HARES (Play 的 值 为 yes 或 no ) 和 类 别 概率 PPlay)。 叶 子 节 点 包括 了 节点 编号 4 
如 果 节 点 是 内 部 节点 ， 输 出 还 额外 显示 了 通 向 每 个 子 节 点 的 观测 数量 和 每 个 属 怕 
列 带 来 的 改进 。 这 些 内 部 节点 包括 编号 1、2、 和 3。 


summary (fit) 
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LL 






































Call: 
rpart(formula = Play ~ Outlook + Temperature + Humidity + Wind, 

data = play_decision, method = "class", 

parms = list(split = "information"), 

control = rpart.control(minsplit = 1)) 
n= 10 
CP nsplit rel error xerror xstd 

Lv 2333333 0 1 1.000000 0.4830459 
2 0.0100000 3 0 1.666667 0.5270463 


Variable importance 
Wind Outlook Temperature 
51 29 20 


Node number 1: 10 observations, complexity param-0.3333333 
predicted class-yes expected loss-0.3 P(node) -1 


7.1 决策 树 





class counts: 3 7 

probabilities: 0.300 0.700 
left son-2 (3 obs) right son=3 (7 obs) 
Primary splits: 


Temperature splits as RRL, improve-1.3282860, (0 missing) 
Wind « 0.5 to the right, improve-1.3282860, (0 missing) 
Outlook splits as RLL, improve-0.8161371, (0 missing) 
Humidity splits as LR, improve-0.6326870, (0 missing) 


Surrogate splits: 
Wind < 0.5 to the right, agree=0.8, adj=0.333, (0 split) 


Node number 2: 3 observations, complexity param-0.3333333 

predicted class-no expected loss=0.3333333 P(node) =0.3 
class counts: 2 1 

probabilities: 0.667 0.333 

left son=4 (2 obs) right son=5 (1 obs) 

Primary splits: 
Outlook splits as R-L, improve=1.9095430, (0 missing) 
Wind < 0.5 to the left, improve=0.5232481, (0 missing) 


Node number 3: 7 observations, complexity param-0.3333333 
predicted class-yes expected loss=0.1428571 P(node) =0.7 
class counts: 1 6 
probabilities: 0.143 0.857 
left son=6 (1 obs) right son=7 (6 obs) 
Primary splits: 


Wind « 0.5 to the right, improve-2.8708140, (0 missing) 
Outlook splits as RLR, improve-0.6214736, (0 missing) 
Temperature splits as LR-, improve=0.3688021, (0 missing) 
Humidity splits as RL, improve=0.1674470, (0 missing) 


Node number 4: 2 observations 
predicted class-no expected loss=0 P (node) 20.2 
class counts: 2 0 
probabilities: 1.000 0.000 


Node number 5: 1 observations 
predicted class-yes expected loss-0 P(node) -0.1 
class counts: 0 1 
probabilities: 0.000 1.000 


Node number 6: 1 observations 
predicted class-no expected loss=0 P (node) -0.1 
class counts: 1 0 
probabilities: 1.000 0.000 


Node number 7: 6 observations 
predicted class-yes expected loss-0 P(node) -0.6 

class counts: 0 6 

probabilities: 0.000 1.000 


该 输出 难以 阅读 和 理解 。 通 过 rpart.plot 工具 包 中 的 rpart.plot0 函 数 可 以 将 输出 展现 成 一 棵 
决策 树 。 输 入 下 面 的 命令 可 以 查阅 raprt.plot 的 帮助 文件 : 
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?rpart .plot 
































输入 下 列 R 代码 ， 基 于 已 建立 的 模型 绘制 决策 树 。 决 策 树 的 结果 如 图 7.9 所 示 。 树 中 的 每 
个 节点 对 应 Play 行为 (是 否 要 去 打球 ) 打上 了 Yes 或 者 No Wn. (HERA, BOAT 
T. RA Wind 的 值 (True/False ) 转换 为 数字 。 
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rpart.plot(fit, type-4, extra=1) 


yes 
37 


— 


7 P. 


图 7.9 基于 DTdata.csv 建立 的 决策 树 









































图 7.9 的 决策 显示 为 缩写 。 使 用 下 列 命令 可 以 拼写 出 完整 的 









































AAAS Ned 
BF, 并 显示 每 个 节点 的 分 类 率 








rpart .plot (fit, type-4, extra-2, clip.right.labs-FALSE, 
varlen=0, faclen=0) 


决策 树 可 以 用 来 预测 新 数据 集 的 结果 。 考 虑 一 个 含 下 述 记录 的 测试 集 。 


Outlook=“rainy”, Temperature-"mi 












































ld", Humidity-"high", Wind-FALSE 


标 是 预测 这 条 记录 的 Play 决策 。 以 下 的 代码 把 数据 载 入 到 R 中 作为 数据 


Wi newdata。 注 
意 训练 集中 不 包含 这 条 记录 。 

























































































newdata «- data.frame (Outlook="rainy", Temperature-"mild", 


Humidity-"high", Wind-FALSE) 
newdata 

Outlook Temperature Humidity Wind 
1 rainy mild high FALSE 






































下 一 步 ， 使 用 predict 函数 从 已 经 拟 合 的 rpart WEE ox TG], predict 函数 的 格式 如 下 : 
predict(object, newdata = list(), 
type = c("vector", "prob", 





"class", "matrix")) 



































参数 type 是 一 个 表示 预测 值 类 型 的 字符 串 。 将 
























































设置 为 prob 或 class， 则 相应 的 决策 树 
模型 预测 结果 为 类 概率 或 类 本 身 。 输 出 中 显示 了 一 个 实例 被 分 类 为 Play=no ， 没 有 实例 被 分 
类 为 Bus =yes。 因 此 ， 在 两 种 情况 下 ， 决 策 树 对 测试 集中 的 Play 决策 的 预测 都 是 不 去 打 高 
AT 











































































































7.2 ”朴素 贝 叶 斯 





predict(fit,newdata-newdata,type-"prob") 


no yes 
1.1.0 


predict(fit,newdata-newdata,type-"class") 


1 
no 
Levels: no yes 


7.2 ”朴素 贝 叶 斯 


朴素 贝 叶 斯 是 一 种 基于 贝 叶 斯 定理 (或 贝 叶 斯 法 则 ) 且 有 上 略微 调整 的 的 概率 分 类 方法 。 贝 
叶 斯 定理 给 出 了 两 个 事件 的 概率 之 间 的 关系 和 它们 的 条 件 概 率 。 贝 叶 斯 法 则 是 以 英国 数学 家 
Tomas Bayes 命名 的 。 

杆 素 贝 叶 斯 分 类 器 假设 一 个 类 的 特定 特征 的 存在 与 否 和 其 他 特征 的 存在 与 否 是 无 关 的 。 例 
如 ， 一 个 对 人 象 可 以 基于 它 的 属性 来 分 类 ， 例 如 形状 、 颜 色 和 重量 。 一 个 合理 的 分 类 会 认为 一 个 
球形 、 黄 色 且 重量 小 于 60 克 的 对 象 可 能 是 网 球 。 即 使 这 些 特征 相互 依赖 或 者 依赖 于 其 他 特征 的 
存在 ， 朴 素 贝 叶 斯 分 类 器 也 认为 所 有 这 些 属 性 独立 地 贡献 了 “该 对 象 是 一 个 网 球 ” 的 概率 。 
朴素 贝 叶 斯 的 输入 变量 一 般 是 分 类 变量 ， 但 是 算法 的 有 些 变 体 可 以 接受 连续 变量 。 也 有 些 
方法 可 以 将 连续 变量 转化 为 分 类 变量 。 这 个 过 程 通常 称 为 连续 变量 的 离散 化 ( discretization of 
continuous variable )。 在 网 球 的 例子 中 ， 连 续 变 量 ( 比如 重量 ) 能 按照 间隔 来 分 组 ， 从 而 被 转换 
成 一 个 分 类 变量 。 对 于 收入 (income ) 这 样 的 属 | 以 通过 下 面 所 示 的 方法 被 转换 成 分 类 
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€ 低 收入 : income < $10,000 

e 工薪 阶级 : $10,000 «income «$50,000 

e 中产 阶 级 : $50,000< income «$1000,000 

e 高 产 阶 级 : incomez $1,000,000 

偷 出 中 通常 包括 一 个 类 标签 及 其 相应 的 概率 得 分 。 概 率 得 分 并 不 是 类 标签 的 真实 概率 ， 但 
已 和 真实 概率 成 正比 。 在 本 章 后 面 将 讲 到 ， 在 大 多 数 实现 中 ， 输 出 包括 类 的 对 数 概率 ， 并 且 类 
标签 是 基于 最 高 值 来 分 配 的 。 

寻 为 朴素 贝 叶 斯 分 类 器 容易 实现 ， 即使 没有 数据 的 先 验 知识 也 能 有 效 地 执行 ， 因 此 帮 
最 流行 的 用 来 分 类 文本 文档 的 算法 之 一 。 垃 圾 邮件 过 滤 也 是 朴素 贝 叶 斯 文本 分 类 的 一 种 经 典 用 
网。 贝 叶 斯 垃圾 邮件 过 滤 已 经 成 为 一 种 区 分 垃圾 邮件 与 普通 邮件 的 流行 机 制 。 许 多 现代 的 邮 
客户 端 都 实现 了 各 种 形式 的 贝 叶 斯 垃圾 邮件 过 滤 机 制 。 

杆 素 贝 叶 斯 分 类 器 也 可 用 于 欺诈 检测 [11]。 例如 在 汽车 保险 领域 , 基于 包含 司机 的 评级 、 

























































































































































































































































































(T 


































































































































































































DE 
F 








































































































































































































r 























第 7 章 高 级 分 析 理 论 与 方法 : 分 类 
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斯 可 以 判断 一 个 新 的 索赔 是 不 是 真 的 [12]。 














7.2.1 贝 叶 斯 定理 






































在 事件 A 已 经 发 生 的 情况 下 ， 
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P(A 
P(C|A)— Lom 
通过 少量 代数 操作 和 替换 条 件 概率 ， 可 以 得 到 公式 7.7。 
pee Dio 
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数学 上 来 讲 ， 贝 叶 斯 定理 给 出 了 C 概率 和 A 概率 之 间 的 关系 , 用 





龄 、 车 价 、 投 保 和 人 的 历史 索赔 记录 、 和 警方 报告 状态 和 索赔 的 真实 性 等 属性 的 训练 集 ， 朴 素 贝 叶 


HE C 发 生 的 条 件 概率 用 P(CIA) 表 示 ， 如 公式 7.6 所 示 。 


(7.6) 


(7.7) 

















[中 C 是 类 标签 Ce {a,c,,.…c,}， 而 A 是 观察 到 的 属性 A= {a,,0,,...4,}, AR 7.7 是 贝 叶 








POH PCA) 表示, 还 给 
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的 条 件 概 率 ， 以 及 在 发 生 C 时 A 的 条 件 概率 ,分 别 























































































































得 多 。 而 使 用 贝 时 斯 定理 ， 就 可 以 规避 这 个 问题 。 


























| : ] P(CIA) 和 P(AIC) 表 示 。 
贝 叶 斯 定理 拥有 重要 意义 ， 因 为 从 训练 数据 中 计算 P(C|A) 往 往 比 计算 PAOA P(C) 要 困难 

































































有 一 个 例子 更 好 地 说 明了 贝 叶 斯 定理 的 应 用 。John 经 常 坐 飞机 而 





























日 喜 欢 把 目 己 的 座位 升 






























































级 为 头等 舱 。 他 发 现 如 果 在 航班 起 飞 前 至 少 两 小 时 办 理 登 机 手续 ， 得 到 升 舱 的 概率 是 0.75; 


































































































否则 他 升 舱 的 概率 则 为 0.35。 但 是 因为 他 平时 很 已 ， 他 能 在 起 飞 前 至 少 两 小 时 办 理 登 机 手续 
的 概率 是 40%。 假如 John 在 最 近 一 次 尝试 升 舱 时 没有 成 功 ， 那 么 他 没有 提前 




































































手续 的 概率 是 多 少 ? 
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\ 时 办 理 登 机 } ~A = (John 没有 获得 升 舱 } o 







































































大 小 时 办 理 登 机 














设 定 C={John 提前 至 少 2 小 时 办 理 登 机 }，A = (John 获得 升 舱 }， 则 -=C = (John 没有 提前 2 


John 提前 至 少 两 小 时 值 机 的 概率 为 40%， 即 P(C)=0.4。 因 此 P(AC) = 1 — P(C) = 0.6, 


















































John 在 他 提早 至 少 两 小 时 值 机 的 情况 
John 在 他 没有 提早 两 小 时 值 机 的 情况 
P(n4|nC)= 0.65。 

根据 公式 7.8 可 以 计算 出 John 获得 升 舱 的 概率 P(A): 
P(A) = P(ANC)+ P(KAn 2C) 
































































































































=P (C)+ P (A|C) +P (4C) P (APC) 


=0.4 x 0.75+0.6 x 0.35 
=0.51 


























获得 升 舱 的 的 概率 是 0.75， 即 PAJO) = 0.75. 
获得 升 舱 的 概率 为 0.35， 即 PAHO = 0.35， 因 此 














(7.8) 
































因此 ，John 没有 获得 升 舱 的 概率 为 PCn4) = 0.49。 使 用 贝 叶 斯 定理 ， 


公式 7.9 3 

















在 没有 提前 至 少 2 小 时 值 机 的 情况 下 也 没有 获得 升 舱 的 概率 : 









































EN] John 


7.2 ”朴素 贝 叶 斯 


P(—43-6).P( C) 
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E uy (79) 
"06x06. 9799 

男 一 个 例子 涉及 根据 实验 室 测 试 来 计算 一 个 病人 患 有 某 种 疾病 的 概率 。 假 设 有 个 病人 趾 
Mary， 对 她 进行 了 实验 室 测试 以 判断 是 否 患 有 某 种 疾病 ,返回 的 结果 是 阳性 。 在 疾病 是 实际 存 
在 的 情况 下 ,， 有 95% 的 测试 会 返回 阳性 结果 。 在 疾病 不 存在 情况 下 , 也 会 有 6% 的 测试 会 返回 B 
性 结果 。 此 外 ， 总 人 口 的 1% 患 有 这 个 疾病 。 在 测试 结果 为 阳性 的 情况 下 ，Mary 真正 患 病 的 概 

率 是 多 少 ? 











ye 


BOE C= {有 疾病 }，A = { 测 试 结果 为 阳性 }。 目 标 是 算出 在 Mary 有 一 个 阳性 测试 结果 的 | 
况 下 她 患 有 疾病 的 概率 , 即 PCCIA)。 从 问题 描述 中 可 以 得 到 ，P(C) 20.01, POC) 20.99, P(A|C) 
-0.95, P(A|^C) = 0.06。 
贝 叶 斯 定理 定义 了 P(C) = P(4|C)P(C)/P(4)。 那 么 需要 先 计 算 测 试 结果 为 阳性 的 可 能 性 ， 
BU PCA)。 计 算 公 式 如 7.10 所 示 。 
P(A)=P(AN C-P(A n AC) 
=P(C) + P(A|C)+ POC) * P(A|RC) (7.10 ) 
=0.01 x 0.95+0.99 x 0.06=0.0689 
根据 贝 叶 斯 定理 ， 在 Mary 有 一 个 阳性 测试 结果 的 情况 下 患 有 疾病 的 可 能 性 如 公式 7.11 
所 示 。 

































































































































































































































































































































































PC] A) = PALOPO) _ 095x001. 0 1379 (PR 
P(A) 0.0689 f f 










































































这 意味 在 得 到 阳性 测试 结 患 病 的 概率 只 有 13.7996, ik—2 
实验 室 测 试 并 不 那么 有 效 。 当 病人 来 看 医生 之 前 ， 他 患 有 疾病 的 概率 为 1%， 当 看 完 医生 之 后 
患 病 的 概率 为 13.79%， 这 表明 需要 进一步 测试 。 

贝 叶 斯 定理 的 一 种 更 通用 的 形式 给 一 个 具有 多 个 属性 A={a1，q2,…,am} 的 对 象 分 配 一 个 分 
标签 ， 使 得 标签 对 应 P(c; | A ) 的 最 大 值 。 一 组 属性 值 4( 由 m 个 变量 aj, an oo, am 组 成 ) 应 该 使 
] 分 类 标签 c 进行 标记 的 概率 ， 等 于 在 cj 为 真 时 一 组 变量 araz... an 的 概率 ， 乘 以 c; 的 概率 ， 
然后 除 以 qi,a2,…,am 的 概率 。 在 数学 上 的 表达 如 公式 7.12 所 示 。 





a 
SA 
c 
可 
< 
5 
<< 

N 

4 

E 
[T 
en 








































































































































































































(s 






























































DT 















































































































































P(a,, osa | c,)- Pee, 
(ai, 3 an |G) (0) ii-12 (7.12) 





P(c, |A)= 
| P(a,,a,,...,a,) 

考虑 在 7.1 节 中 提 到 的 预测 客户 是 否 会 签约 定期 存款 的 银行 营销 示例 。 让 A 表示 一 系列 属 
生 {job, marital, education, default, housin, loan, contact, poutcome] 。 根 据 公 式 7.12， 这 个 问题 实质 上 
就 是 计算 P(clA), 其 He; € {subscribed=yes,subscribed=no} s 
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高 级 分 析 理 论 与 方法 : 分 类 





7.2.2 ”朴素 贝 叶 斯 分 类 器 

























































































































































































经 过 两 种 简化 ， 贝 叶 斯 定理 能 被 扩展 为 朴素 贝 叶 斯 分 类 器 。 
第 一 种 简化 就 是 使 用 条 件 独立 性 假设 。 也 就 是 说 ， 给 定 一 个 类 标签 c， 每 个 属性 是 条 件 独 
于 其 他 每 个 属性 的 。 见 公式 7.13。 

P(a,a,,. a, |c) = P(a, | c) P(asc;)--- Pa, le) - [[^; |c) (7.13) 


因此 ， 这 个 朴素 假设 简化 了 P(a,,a,,...,4, | c) 的 计算 。 
第 二 种 简化 是 忽略 分 母 P(a ,aa ) 。 因 为 P(a ,aa ) 出 现在 所 有 i 的 PCc | A) B4 5] 
里 ， 移 除 分 母 对 于 相对 概率 值 没有 影响 ， 并 且 会 简化 计算 。 
朴素 贝 叶 斯 分 类 使 用 上 述 这 两 种 简化 方式 ， 结 果 是 P(c | a,,a,,...4,,) Pla, |c) 和 PeH 
乘积 是 成 比例 的 ， 如 公式 7.14 所 示 。 


Pc px Pe] PG le). icon (7.14 ) 















































































































































































































































数学 符号 x 表示 LHS P(e, |A) FO RHS 直接 成 比例 。 

7.1 节 引 入 了 一 个 银行 营销 数据 集 ( 见 图 7.3 )。 本 节 将 介绍 如 何 对 这 个 数据 集 使 用 贝 叶 斯 分 
类 器 来 预测 客户 是 否 会 签约 定期 存款 。 
建立 一 个 贝 叶 斯 分 类 器 需要 知道 所 有 ^W 练 集 计 算 第 一 个 要 求 是 收集 所 
的 类 标签 的 概率 P(Cc)。 在 给 出 的 例子 中 ， 这 就 是 客户 将 签约 凭证 式 存 蒜 的 概率 和 不 签约 的 概 
ms ou cc TU. 

朴素 贝 叶 斯 分 类 器 需要 知道 的 第 二 件 事 情 是 在 给 定 每 个 类 标 c 的 情况 下 ， 每 个 属性 a; 的 条 

件 概 率 , BI PCa, |e) 。 训练 集 包 含 的 几 个 属性 : job, marital, education, default, housing, loan, 
contact 和 poutcome。 对 于 每 个 属性 和 其 可 能 值 ， 计 算 给 定 suscribed=yes 或 subscribed = no 下 的 
条 件 概 率 。 例 如 ， 与 marital 属性 相关 的 条 件 概 率 计 算 如 下 。 

P(single|subscribed=yes) ~0.35 

P (married|subscribed-yes) 70.53 

P (divorced|subscribed-yes) 70.12 

P(single|subscribed-no) 70.28 


P (married|subscribed-no) 70.61 
P(divorced|subscribed-no) ~0.1 


在 训练 完 分 类 器 并 且 计 算出 所 有 需要 的 统计 数字 后 ， 朴 素 贝 叶 斯 分 类 器 对 测试 集 做 测试 。 
对 于 测试 集中 的 每 条 记录 ， 朴 素 贝 叶 斯 分 类 器 分 配 了 让 pe) T [1 p; 1) 最 大 化 的 标签 ci。 
表 74 包含 了 一 个 客户 的 记录 ， 这 个 客户 从 事 的 是 管理 层 工作 ， 已 婚 ， 中 学 学 历 ， 没 有 违 
约 记录 ， 有 房贷 但 没有 个 人 贷款 ， 倾 向 于 通过 手机 联系 ， 并 且 在 以 往 的 营销 活动 中 与 他 的 联系 
是 成 功 的 。 那 么 这 个 客户 有 可 能 签约 凭证 式 存款 么 ? 
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7.2 朴素 贝 叶 斯 





表 7.4 新 客户 的 记录 
Job Marital Education Default Housing Loan Contact | Poutcome 





management married secondary no yes no cellular Success 


K 7.5 所 示 的 条 件 概率 。 


aa 


通过 训练 集 建立 分 类 器 之 后 ， 束 能 计算 得 全 
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表 7.5 计算 新 客户 纪录 的 条 件 概率 


























j aj P (aj[subscribed = yes) P (aj | subscribed = no) 
1 job = management 0.22 0.21 
2 marital = married 0.53 0.61 
3 education =secondary 0.46 0.51 
4 default 2 no 0.99 0.98 
5 housing = yes 0.35 0.57 
6 loan = no 0.90 0.85 
7 contact = cellular 0.85 0.62 
8 poutcome =success 0.15 0.01 












































AN P(c, | a,.a,.....a,) HAN Pla, | Cj € [Lm 与 (c) 的 乘积 成 正比 的 ， 那 么 朴素 贝 叶 斯 分 类 
器 赋值 给 类 标签 c; 的 值 是 所 有 i 的 结果 里 的 最 大 值 。 因 此 对 于 每 一 个 c;， 要 使 
P(c | A) « p(c;)* lI pa; | c) EE P(e, |a,a ap) 0 
对 于 A= ( management, married, secondary, no, yes, no, cellular, success}, 
pCGes|A) ox 0.11(0.22 + 0.53 + 0.46 + 0.99 + 0.35 + 0.90 + 0.85 + 0.15) 0.00023 
p(nolA) ex 0.89(0.21 + 0.61 + 0.51 + 0.98 + 0.57 + 0.85 + 0.62 - 0.01) ~0.00017 
X P(subscribed= yes|A)» P(subscribed-no|A) ,所 以 表 7.4 中 的 客户 被 赋予 标签 subscribed = yeso 
也 就 是 说 ， 客 户 被 认为 很 可 能 签约 凭证 式 存款 。 
昌 然 P(yes|A)All Pol4) 的 数值 都 很 小 ,但 是 PCyes|4) 和 Plnol4) 的 比值 才 是 有 意义 的 。 事实 
上 ,Plyes|4) 和 P(nol4) 的 数值 并 不 是 真正 的 概率 ,只 不 过 它们 和 真正 的 概率 成 正比 , 如 公式 7.14 
所 示 。 毕 况 ， 如果 两 个 数值 是 真实 的 概率 ， 那么 PQyes|4) 和 Plnol4) 的 和 应 该 等 于 1。 当 被 分 析 的 
问题 包含 大 量 的 属性 或 者 属性 由 很 多 层级 构成 的 的 时 候 ,， 这些 值 可 能 非常 小 ( 接近 于 零 )， 从 市 
导致 结果 的 差异 更 小 。 这 就 是 数值 下 溢 (numerical underflow ) 的 问题 ， 它 是 由 儿 个 接近 于 0 的 
概率 值 相 乘 而 引起 的 。 为 了 缓解 这 个 问题 ， 一 种 方法 就 是 计算 积 的 对 数 ， 这 相当 于 这 些 概率 的 
对 数 总 和 。 因 此 ， 朴 素 贝 叶 斯 公式 可 以 重 写 为 公式 7.15 所 示 。 
P(c, |A) x log P(c,) + Y Mog P(a, |c) i=1,2,..n (7.15) 
j=l 
虽然 下 溢 的 风险 可 能 随 着 属性 数量 的 增加 而 增加 ， 但 是 通常 对 数 的 应 用 与 属 
无 关 。 
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7.2.3 平滑 


如 果 一 个 属性 值 没有 在 训练 集中 的 一 个 类 标签 中 出 现 ， 那 么 相应 的 P{ajci} 将 等 于 零 。 当 这 
种 情 癌 发 生 时 ， 无 论 一 些 条 件 概率 的 值 有 多 大 ， 将 所 有 的 Pl(ajlc)G e[1,m]) 相 乘 后 ，P{cj4} 的 结 
果 都 会 立即 变 为 零 ， 从 而 发 生 过 度 拟 合 。 平滑 (smoothing ) 技术 可 用 于 调整 P{ajlci} 的 概率 ， 
确保 P{cJAJB NE. 平滑 技术 为 没有 包含 在 训练 数据 集中 的 小 概率 事件 赋 了 一 个 很 小 的 非 0 和 
率 值 。 同 时 ， 平滑 技术 也 解决 了 公式 7.15 中 可 能 发 生 的 对 0 取 对 数 的 问题 。 
平 衫 技术 有 很 多 种 。 其 中 的 拉 普 拉 斯 平滑 (Laplace smoothing ) € 加 1) 技术 假装 看 到 每 
个 结果 的 次 数 都 比 实际 多 一 次 。 这 技术 如 公式 7.16 所 示 。 
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count(x)+1 
5 „[count(x)+ 1] 


例如 ,假设 有 100 MEPR TEUER, HA 20 A, 70 人 已 婚 ，10 人 离异 。“ 原 
始 ” 的 概率 是 psinglelsxbscriped=yes)=20/100=0.2。 使 用 拉 普 拉 斯 平滑 给 计数 器 加 1， 那么 调整 
后 的 概率 就 是 p(singlelsubscribed=yes)=(20+1)/+(70+1)+(10+1)] 二 0.2039。 

拉 普 拉 斯 平滑 的 一 个 问题 是 它 可 能 给 了 不 可 见 事件 太 高 的 概率 。 为 了 解决 这 个 问题 ， 拉 普 
拉 斯 平滑 可 以 更 通用 地 使 用 s 而 不 是 1，s e[0,1]， 见 公式 7.17。 


P*(x)— (7.16) 
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count(x) 4- € 


> ,Icount(x) 4- €] 


平滑 技术 包含 在 朴素 贝 叶 斯 分 类 器 的 大 多 数 标准 软件 包 中 。 然 而 如 果 因为 基 些 原因 (如 
性 能 问题 ) 朴素 贝 叶 斯 分 类 器 需 直接 在 应 用 中 编码 实现 ， 平 滑 以 及 对 数 计算 也 必须 被 纳入 到 
实现 中 。 


P¥*(x) = (7.17) 







































































































































































7.2.4 诊断 


与 逻辑 回归 不 同 的 是 ， 朴 素 贝 叶 斯 分 类 器 可 以 处 理 缺 失 值 。 朴 素 贝 叶 斯 对 无 关 变 量 的 处 理 
也 是 健壮 的 ， 所 谓 无 关 变 量 是 指 分 布 在 所 有 类 中 ， 而 且 影 响 不 明显 的 变量 。 

这 个 模型 即使 不 使 用 库 也 可 以 简单 地 实现 。 预 测 是 基于 发 生 事件 的 次 数 ， 使 得 分 类 器 很 高 
效 。 朴 素 贝 叶 斯 计算 效率 很 高 , 并 能 有 效 地 处 理 高 维度 数据 。 相 关 研 究 [13] 表 明 朴 素 贝 叶 斯 分 类 
器 在 许多 情况 下 与 其 他 学 习 算 法 不 相 上 下 ， 包 括 决策 树 和 神经 网 络 。 在 某 些 情况 下 ， 朴 素 贝 叶 
斯 甚 至 优 于 其 他 方法 。 不 同 于 逻辑 回归 ， 朴 素 贝 叶 斯 分 类 器 可 以 处 理 多 层级 的 分 类 变量 。 我 们 
还 记得 ,决策 树 也 可 以 处 理 分 类 变量 ， 但 太 多 的 层级 可 能 导致 深 树 。 朴 素 贝 叶 斯 分 类 顺 在 多 层 
级 分 类 值 上 的 表现 优 于 决策 树 。 相 比 决策 树 ， 杆 素 贝 叶 斯 对 过 度 拟 合 更 有 抵抗 力 ， 特 别 是 如 
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7.2 朴素 贝 叶 斯 

























































































尽管 朴素 贝 叶 斯 有 很 多 好 处 ， 它 还 是 有 一 些 缺 点 。 朴 素 贝 叶 斯 需要 及 定数 据 变 变量 之 间 是 条 
了 的。 因此 ， 它 对 于 关联 变量 是 很 敏感 的 ， 因 为 这 个 算法 可 能 会 重复 计算 其 影响 。 作 大 

一 个 例子 ,假定 低 收入 和 低 信 用 的 人 往往 会 拖欠 债务 。 如 果 要 基于 收入 和 信用 作为 两 个 独立 
来 计算 “拖欠 ”， 朴 素 贝 叶 斯 可 能 会 重复 计算 收入 和 信用 对 于 拖欠 结果 的 效应 ， 从 而 降 

测 的 准确 性 。 
虽然 概率 作为 预测 结果 的 一 部 分 提供 , 但 是 朴素 贝 时 斯 分 类 器 在 概率 估计 上 通常 并 不 可 靠 ， 

而 应 该 仅 用 于 分 配 类 的 标签 。 朴 素 贝 叶 斯 的 简单 形式 仅 适 用 于 分 类 变量 。 任 何 连续 变量 
被 转换 成 分 类 变量 ， 这 个 过 程 称 为 离散 化 。 然 而 在 常见 的 统计 软件 包 中 ， 朴 素 贝 叶 斯 的 实现 方 
式 使 它 也 能 处 理 连续 变量 。 








































































































































































































































































































































































































































































































































































































7.2.5 R 中 的 朴素 贝 叶 斯 


本 节 将 介绍 在 R 语言 中 使 用 朴素 贝 叶 斯 分 类 咒 的 两 种 方式 。 第 一 种 方式 是 通过 手工 计算 概 
率 值 从 零 开 始 做 起 ， 而 第 二 种 方式 是 使 用 el1071 包 中 的 naiveBayes 方法 。 下 面 的 例子 显示 了 如 
何 使 用 朴素 贝 叶 斯 来 预测 员工 是 否 会 注册 一 个 现场 教育 项 目 。 
在 R 中 ， 第 一 步 是 建立 工作 目录 并 初始 化 软件 包 。 
setwd("c:/") 


install.packages("el071") # install package e1071 
library (e1071) # load the library 
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[ 作 目 录 中 包括 了 一 个 CSV 文件 ( sample.csv )。 该 文件 有 一 个 标题 行 ， 随 后 是 14 行 训练 
数据 。 属 性 包括 Age, Income, JobSatisfaction 和 Desire。 输 出 变量 是 Enrolls， 它 的 值 是 Yes 或 
者 No。 整 个 CSV 文件 的 内 容 如 下 。 


Age,Income,JobSatisfaction,Desire,Enrolls 
<=30,High,No,Fair,No 

<=30, High, No, Excellent, No 

31 to 40,High,No,Fair, Yes 
>40,Medium, No, Fair, Yes 

>40, Low, Yes, Fair, Yes 

>40, Low, Yes, Excellent, No 

31 to 40,Low, Yes,Excellent, Yes 
<=30, Medium, No, Fair,No 

<=30, Low, Yes, Fair, Yes 
>40,Medium, Yes,Fair, Yes 
<=30,Medium, Yes, Excellent, Yes 

31 to 40,Medium,No,Excellent, Yes 
31 to 40,High, Yes,Fair,Yes 
>40,Medium, No, Excellent,No 
<=30,Medium, Yes,Fair, 


CSV 的 最 后 一 行 稍 后 用 作 测试 用 例 。 因 此 , 这 一 行 并 不 包括 输出 变量 Enrolls 的 值 ， 该 变量 
的 值 将 使 用 基于 训练 集 的 朴素 贝 叶 斯 分 类 器 来 预测 。 
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执行 下 面 的 R 代码 ， 从 CSV 文件 中 读 取 数据 。 


# read the data into a table from the file 

sample <- read.table("samplel.csv",header=TRUE, sep=",") 
# define the data frames for the NB classifier 
traindata <- as.data.frame(sample[1:14,]) 

testdata <- as.data.frame(sample[15,]) 


APE DAM gr SRS OE T AACR traindata 和 testdata。 输 入 traindata 和 testdata 
3 mor 
这 个 数据 帧 输出 在 Jf fH als 如 下 所 = ^o 






















































































traindata 
Age Income JobSatisfaction Desire Enrolls 

1 <=30 High No Fair No 
2 <=30 High No Excellent No 
3 31 to 40 High No Fair Yes 
4 >40 Medium No Fair Yes 
5 >40 Low Yes Fair Yes 
6 >40 Low Yes Excellent No 
7 31 to 40 Low Yes Excellent Yes 
8 «-30 Medium No Fair No 
9 <=30 Low Yes Fair Yes 
10 >40 Medium Yes Fair Yes 
TT <=30 Medium Yes Excellent Yes 
12 31 to 40 Medium No Excellent Yes 
13 31 to 40 High Yes Fair Yes 
14 >40 Medium No Excellent No 
testdata 

Age Income JobSatisfaction Desire Enrolls 
15 <=30 Medium Yes Fair 












































这 里 所 展示 的 第 一 个 方法 是 通过 手工 计算 概率 值 的 方式 从 零 起 步 ， 创 建 一 个 朴素 贝 叶 斯 分 
类 器 。 创建 分 类 器 的 第 一 步 是 计算 属性 的 先 验 概率 , 包括 Age, Income, JobSatisfaction 和 Desire. 
根据 朴素 贝 叶 斯 分 类 器 ， 这 贞 acri: 因 变 量 ( 输出 变量 ) 是 Enrolls。 

计算 Enrolls 的 先 验 概率 plc), 其 中 ceEC C= (Yes, No} 。 
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3, 


tprior <- table(traindataSEnrolls) 
tprior 
No Yes 
05 9 


tprior «- tprior/sum(tprior) 
tprior 


No Yes 
0.0000000 0.3571429 0.6428571 


下 一 步 是 计算 条 件 概 率 P ( AIC )， 其 中 A={Age,income,JobSatisfaction,Desire } 
C={Yes,No}。 为 每 个 Age 组 计算 “No” 和 "Yes" 条 目的 数量 ， 并 通过 标准 化 “No” 和 “Yes” 
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的 总 数量 来 获得 条 件 概 率 。 





ageCounts «- table(traindata[,c("Enrolls", 


"Age")]) 
ageCounts 
Age 
Enrolls <=30 >40 31 to 40 
0 0 0 
No 3 2 0 
Yes 2 


ageCounts «- ageCounts/rowSums (ageCounts) 
ageCounts 


Age 


Enrolls «230 >40 31 to 40 


No 0.6000000 0.4000000 0.0000000 
Yes 0.2222222 0.3333333 0.4444444 








$ 
= 
H 


"m 
a 


ME Income, JobSatisfaction 和 Desire 做 同样 的 事情 。 


ncome")]) 
incomeCounts «- incomeCounts/rowSums (incomeCounts) 
incomeCounts 




















incomeCounts «- table(traindata[,c("Enrolls", 








Income 
Enrolls High Low Medium 


No 0.4000000 0.2000000 0.4000000 
Yes 0.2222222 0.3333333 0.4444444 
jsCounts «- table(traindata[,c("Enrolls", 


"JobSatisfaction")]) 
jsCounts «- jsCounts/rowSums (jsCounts) 
jsCounts 
Jobsatisfaction 
Enrolls No Yes 


No 0.8000000 0.2000000 
Yes 0.3333333 0.6666667 


desireCounts «- table(traindata[,c("Enrolls", "Desire")]) 
desireCounts «- desireCounts/rowSums (desireCounts) 
desireCounts 

Desire 
Enrolls Excellent Fair 


No 0.6000000 0.4000000 
Yes 0.3333333 0.6666667 


根据 公式 Tals 概率 P ( CA) [SE P (ajle; ) 与 (ci) 的 乘 逢 


Weil, FLA 
( Yes|A ) #1 P(No|P) HARRIE SHE ASE 
但 来 预测 Enrolls 。 











ay 





















































zm 


7.2 ”朴素 贝 叶 斯 


LrH cl=Yes 而 c;No, P 
。 对 于 给 定 的 测试 数据 
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prob yes «- 


法 : 分 类 


ageCounts["Yes",testdata[,c("Age")]]* 
incomeCounts["Yes",testdata[,c("Income")]]* 
jsCounts["Yes",testdata[,c("JobSatisfaction")]]* 
desireCounts["Yes",testdata[,c("Desire")]]* 
tprior["Yes" 

prob no «- 
ageCounts["No",testdata[,c("Age")]]* 
incomeCounts["No",testdata[,c("Income")]]* 
jsCounts["No",testdata[,c("JobSatisfaction")]]* 
desireCounts["No",testdata[,c("Desire")]]* 





tprior["No"] 
max(prob yes,prob no) 
如 下 所 示 ， 测 试 集 的 预测 结 ? 
prob yes 


Yes 
0.02821869 





























= Enrollsz Yes; 





prob no 
No 
0.006857143 


max(prob yes, prob no) 

















































































































































































































































































































1] 0.02821869 
R 中 的 e1071 软件 包 有 一 个 内 置 的 naiveBayes 函数 , 能 在 给 定 独 立 分 类 预测 变量 的 情况 下 ， 
使 用 贝 叶 斯 规则 来 计算 分 类 变量 的 条 件 概 率 。 该 函数 的 形式 为 naiveBayes (formula, data, ... ), 
其 中 参数 的 定义 如 下 。 
€ formula: 形式 为 class 一 xl + x2 +.… 的 公式 ， 假 设 x1,x2... 是 条 件 独立 的 。 
€ data: 数据 帧 。 
喝 用 下 面 的 代码 片段 来 执行 模型 并 显示 结果 。 
model <- naiveBayes(Enrolls ~ Age+Income+JobSatisfaction+Desire, 
traindata) 
# display model 
model 
Rig Hi f model 的 概率 与 之 前 方法 中 得 到 的 概率 相符 。 默 认 的 laplace=laplace iX 
置 启用 了 拉 普 拉 斯 平滑 。 






























































Naive Bayes Classifier for Discrete Predictors 





Call: 

naiveBayes.default(x = X, y = Y, laplace = laplace) 
A-priori probabilities: 

pz No Yes 


0.0000000 0.3571429 0.6428571 


e 
Hog 


7.2 ”朴素 贝 叶 斯 





Conditional probabilities: 
Age 
Y <=30 >40 31 to 40 


No 0.6000000 0.4000000 0.0000000 
Yes 0.2222222 0.3333333 0.4444444 


Income 
Y High Low Medium 


No 0.4000000 0.2000000 0.4000000 
Yes 0.2222222 0.3333333 0.4444444 


JobSatisfaction 
Y No Yes 


No 0.8000000 0.2000000 
Yes 0.3333333 0.6666667 


Desire 
Y Excellent Fair 


No 0.6000000 0.4000000 
Yes 0.3333333 0.6666667 









































Be POR, (UA testdata 来 预测 Enrolls 的 输出 结果 为 Enrolls=Yes。 








# predict with testdata 

results «- predict (model,testdata) 
+ display results 

results 

1] Yes 

Levels: No Yes 


naiveBayes 国 数 接受 一 个 拉 普 拉 斯 参数 ,这 个 参数 可 以 自 定 义 公 式 7.17 Hef ( 用 于 拉 普 














































































































































































































白 平滑 ), 下面 的 代码 展示 了 如 何 使 用 拉 普 拉 斯 平滑 a=0.01 来 建立 一 个 用 于 预测 的 朴素 贝 叶 斯 
类 器 。 








# use the NB classifier with Laplace smoothing 
modell = naiveBayes(Enrolls ~., traindata, laplace-.01) 





+ display model 
modell 
Naive Bayes Classifier for Discrete Predictors 


Call: 
naiveBayes.default (x = X, y = Y, laplace = laplace) 


A-priori probabilities: 
Y 

No Yes 
0.0000000 0.3571429 0.6428571 


第 7 章 高 级 分 析 理 论 与 方法 : 分 类 





Conditional probabilities: 
Age 
Y <=30 >40 31 to 40 
0.333333333 0.333333333 0.333333333 
No 0.598409543 0.399602386 0.001988072 
Yes 0.222591362 0.333333333 0.444075305 


Income 
Y High Low Medium 
0,3333333.:0.3333333. 0. 3333333 
No 0.3996024 0.2007952 0.3996024 
Yes 0.2225914 0.3333333 0.4440753 


JobSatisfaction 
Y No Yes 
0.5000000 0.5000000 
No 0.7988048 0.2011952 
Yes 0.3337029 0.6662971 


Desire 
Y Excellent Fair 
0.5000000 0.5000000 
No 0.5996016 0.4003984 
Yes 0.3337029 0.6662971 


测试 用 侈 再 次 被 归 


# predict with testdata 
resultsl «- predict (modell,testdata) 














y- 














KH Enrolls=Yes。 





# display results 
results1 

[1] Yes 

Levels: No Yes 


7.3 ”分 类 器 诊断 


迄今 为 上 ， 本 书 已 经 讨论 了 三 种 分 类 器 : 逻辑 回归 、 
以 根据 实例 所 拥有 的 相似 特 
评价 它们 的 性 能 。 
有 一 些 工具 就 是 用 来 评估 分 类 器 的 性 能 。 这 样 的 工具 不 限于 评估 
通用 的 分 类 器 评估 工具 。 

混淆 和 矩阵 (confusion matrix ) 是 一 种 特定 的 表格 布局 ， 可 以 可 视 化 分 类 器 的 性 能 。 
表格 7-6 所 示 为 一 个 二 类 分 类 器 的 混淆 矩阵 。 真 阳性 (TP ) 是 阳性 实例 被 分 类 器 正确 识别 
为 阳性 的 数量 。 伪 阳性 ( FP ) 是 实例 被 分 类 器 识别 为 阳性 但 是 实际 上 为 阴性 的 数量 ,。 EE (TN) 









































姑 策 树 、 朴 素 贝 叶 斯 。 这 三 种 方法 可 
F 来 把 它们 分 类 成 不 同 的 组 。 每 个 分 类 器 都 面临 同样 的 问题 : 如 何 


ay 






























































mE 
































































































































B 
H 
; 
di 
n 
O 








=P AK, f 

































































I 


























































































































































































































































































































































































































































































































是 阴性 实例 被 分 类 器 正确 认定 为 阴性 的 数量 。 伪 阴性 CEN ) 是 实例 被 分 类 器 识别 为 阴性 但 是 实 
际 上 和 是 阳性 的 数量 。 在 二 类 分 类 融 中 ， 预 设 的 国 值 可 用 于 区 分 阳性 阴性 。TP 和 TN 是 正确 的 
测 。 一 个 好 的 分 类 器 应 该 有 大 的 TP 和 TN， 小 的 〈 理 想 情 况 下 为 零 的 FP 和 FN。 
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表 7.6 混淆 矩阵 









































预测 分 类 
阳性 阴性 
阳性 真 阳 性 CTP) 伪 阴 性 CRN) 
实际 分 类 阴性 伪 阳 性 (FP) 真 阴 性 CTN) 
























































在 银行 营销 案例 中 ， 训 练 集 包括 了 2000 个 实例 ， 还 包括 了 额外 的 100 个 实例 作为 测试 集 。 
K 7.7 所 示 为 一 个 朴素 贝 叶 斯 分 类 器 的 混 请 矩阵 ， 用 来 预测 100 个 客户 是 否 会 签约 凭证 式 存款 。 
在 11 个 签约 了 凭证 式 存款 的 客户 中 ， 该 模型 预测 3 个 客户 签约 







































































eee 


j 8 个 客户 不 签约 。 与 之 类 似 ， 
89 个 不 签约 的 客户 中 ,模型 预测 2 个 客户 签约 ，87 个 客户 个 不 签约 。 所 有 正确 的 猜测 都 位 于 
中 从 左上 到 右 下 的 位 置 。 这 样 很 容易 从 视觉 上 检查 表 的 错误 ， 因 为 它们 会 被 表示 为 对 角 线 外 的 
任何 非 零 值 。 
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表 7.7 ”银行 营销 案例 中 的 朴素 贝 叶 斯 混淆 矩阵 










































































































































































































































































































































































预测 分 类 
签约 不 签约 总 计 
签约 3 8 11 
实际 分 类 不 签约 2 87 89 
总 计 5 98 100 
精确 度 (accuracy ) ( 或 总 成 功率 [overall success rate] ) 是 度量 ,， 它 定义 了 模型 能 够 正确 
地 对 记录 进行 分 类 的 比例 。 它 被 定义 为 TP 和 TN 的 总 和 除 以 实例 总 数 ， 如 公式 7.18 所 示 。 
Accuracy — Tm UN — E x100% (7.18) 
一 个 好 的 模型 应 该 有 一 个 高 的 精确 度 评分 ， 但 只 具有 高 精确 度 分 数 也 不 能 保证 模型 建立 得 
很 好 。 以 下 度量 可 以 用 来 更 好 地 评估 分 类 器 的 性 能 。 




































































在 第 6 章 中 看 到 ， 真 阳性 率 (ture positive rate, TPR ) 是 被 分 类 器 正确 识别 为 阳性 实例 的 比 
例 。 它 可 以 通过 公式 7.19 来 说 明 。 

































































TPR = = (7.19) 
TP+ FN 
而 伪 阳 性 率 (false positive rate, FPR) 就 是 被 分 类 器 标记 为 阳性 而 实际 上 为 阴性 的 百分比 。 


FPR 也 被 称 为 误 报 率 (false alarm rate ) 或 者 I 型 错误 率 (type Terror rate )， 如 公式 7.20 所 示 。 



































































































































FPR= (720) 
FP -- TN 


APHEX (false negative rate, FNR ) 是 分 类 器 标记 为 B 















































性 而 实际 上 为 阳性 的 百分比 。 它 也 
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被 称 为 缺失 率 ( miss rate ) 或 II 7 5573€ (type II error rate ), 如 全 7.21 所 示 。 注意 TPR 和 FNR 
的 和 是 1。 





























FNR = 一 一 一 一 (7.21 ) 






































一 个 性 能 好 的 模型 应 该 有 一 个 较 高 的 TPR ( 理想 值 是 1 )， 一 个 较 低 的 FPR 和 FNR Ciz 
的 理想 值 是 0 )。 在 现实 中 ，TPR = 1、FPR = 0、FNP= 0 的 情况 是 非常 罕见 的 ， 但 这 些 度量 在 比 
问题 而 j 设 计 的 多 个 模型 的 性 能 时 ， 很 有 用 的 。 值 得 注意 的 是 ,在 一 般 情况 下 ， 
可 取 的 模型 可 能 依赖 于 业务 情况 。 在 数据 分 析 生 命 周 期 的 发 现 阶段 中 ， 团 队 应 该 从 业务 中 学 
习 到 什么 错误 是 可 以 容忍 的 。 某 些 业务 情况 比较 能 容忍 I 型 错误 ， 而 其 他 业务 可 能 更 加 容忍 TE 
型 错误 。 在 某 些 情况 下 ,TPR 为 0.95 Fl FPR 为 0.3 的 模型 比 TPR 为 0.9 和 FPR 为 0.1 的 模型 更 
容易 接受 , 即使 第 二 种 模型 从 整体 上 来 说 更 为 精确 。 考虑 过 滤 垃 圾 电子 邮件 的 案例 , 一 些 人 (多 






































































































































































































































































































































































































































































































































































































































































































































































































































































































































H 
繁忙 的 管理 层 们 ) AAEM AE Ec ERR THE, TAREA RE FT BITE 
被 放 入 垃圾 邮件 文件 夹 ， 只 要 他 们 的 收 件 箱 里 没有 垃圾 邮件 即 可 。 而 其 他 人 可 能 不 希望 任何 重 
要 或 不 太 重 要 的 邮件 被 判定 为 垃圾 邮件 ， 并 愿意 接受 一 些 垃圾 邮件 出 现在 收 件 箱 中 ， 上 只 要 重要 
的 邮件 不 被 放 入 垃圾 邮件 文件 夹 即 可 。 








































































































准确 率 (precision ) 和 召回 率 (Recall) 是 在 信息 检索 社区 中 使 用 的 度量 ， 但 是 它们 也 可 以 
用 来 表示 分 类 器 的 一 般 特征 。 准 确 率 是 被 标记 为 阳性 并 且 事 实 上 也 确实 是 阳性 的 实例 所 占 的 
分 比 ， 如 公式 7.22 所 示 。 


























































































































































































































TP 
Precision = ———— (7.22 ) 
TP + FP 
吾 回 率 是 本 应 被 正确 识别 为 P 侈 的 百分比 。 召 回 率 等 于 TPR。 第 9 章 讨 论 了 如 何 使 用 


J 
准确 率 和 召回 率 在 文本 分 析 的 场景 中 对 分 类 器 进行 评估 。 
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给 定 表 7.7 PERIA RE, AAU FARER E. 
Accuracy — I x100% = ——— x100% 
TP +TN + FP + FN 3+87+2+8 
TP 
TPR(or Recall) = T. x 0.273 
TP+FN 3+8 
FPR= id B 2 z 0.022 
FP+TN 2 十 87 
FNR — I enr = 0.7277 
TP--FN 3+8 
TP 
Precision = ————— = L =0.6 


TP+FP 3+2 


这 些 度量 表明 朴素 贝 叶 斯 分 类 器 具有 和 上 度 和 FPR 度量 ， 以 
率 。 然 而 ， 它 在 TPR 和 FNR 上 表现 不 佳 。 为 了 提高 性 能 ， 尝 试 在 数据 集中 
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对 于 银行 营销 的 例子 f, 
及 相对 较 好 的 准确 : 
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加 入 更 多 的 属性 来 更 好 地 区 分 记录 的 特点 。 还 有 其 他 的 方法 来 评估 在 通用 分 类 器 的 性 能 ， 比 如 
N 折 交 叉 验 证 (第 6 章 ) 或 是 bootstrap[14]。 
第 6 章 已 经 介绍 了 ROC 曲线 ， 它 是 评价 分 类 器 的 一 个 常用 工具 。ROC 的 全 称 是 接收 者 操 
作 特 征 (receiver operating characteristic )， 是 信号 检测 中 的 一 个 术语 ， 用 来 表征 噪声 通道 中 的 命 
中 率 和 误 报 率 之 间 的 权衡 ROC 曲线 基于 TP 和 FP 评价 分 类 器 的 性 能 , 而 不 管 类 分 布 和 错误 成 
之 类 的 其 他 因素 。 垂 直 轴 是 真 阳 性 率 (TPR )， 水 平 轴 是 伪 阳 性 率 (FPR )。 
如 第 6 章 所 述 ， 任 何 分 类 器 都 可 以 通过 把 所 有 实例 分 类 为 阴性 示例 的 方法 ， 到 达到 图 的 左 
下 方 (在 这 个 位 置 ，TPR =FPR 20). 与 之 类 似 , 任何 分 类 器 都 可 以 通过 把 所 有 实例 分 类 为 阳性 
示例 的 方法 ， 到 达 图 的 右上 角 (在 这 个 位 置 ，TPR = FPR = 1 )。 如 果 一 个 分 类 器 通过 随机 猜 涡 
结果 来 “接近 随机 状态 ”(at chance )， 它 可 以 通过 选择 一 个 合适 的 阳性 /阴性 阔 值 来 
TPR = FPR 上 的 任何 一 点 。 一 个 理想 的 分 类 器 应 该 完全 从 阴性 中 分 离 出 阳性 ， 从 
( TPR = 1，FPR = 0 )。 这 样 的 分 类 器 的 ROC 曲线 是 从 TPR = FPR = 0 直线 上 升 到 左上 角 ， 然 后 
笔直 向 右 移动 到 右上 角 。 在 现实 中 ， 很 难 到 达 左 上 角 。 但 一 个 更 好 的 分 类 器 应 该 能 更 接近 左上 
， 从 而 将 其 与 更 接近 对 角 线 的 分 类 器 区 分 开 来 。 
与 ROC 曲线 相关 的 就 是 曲线 下 面积 (area under the curve, AUC), AUC 是 通过 测量 ROC 
线 下 的 面积 来 计算 的 。 较 高 的 AUC 数值 意味 着 分 类 器 表现 更 好 。 该 数值 的 范围 从 0.5 ( 对 
żę TPR = FPR ) 到 1 (ROC 穿 过 左上 角 )。 
在 银行 营销 的 案例 中 ， 训 练 集 包 括 了 2000 个 实例 ， 还 包括 另外 的 100 个 实例 作为 训练 集 。 
图 7.10 显示 了 建立 在 2000 个 实例 的 训练 集 上 并 在 100 个 实例 的 测试 集 上 进行 测试 的 村 素 贝 叶 
斯 分 类 右 的 ROC 曲线 。 该 图 是 由 下 面 的 R 脚本 生成 的 。 绘 制 ROC 曲线 时 需要 用 到 ROCR 包 。 
2000 个 实例 位 于 branktrain 数据 帧 中 ， 另 外 100 个 实例 位 于 banktest 数据 帧 中 。 




































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































library (ROCR) 


# training set 

banktrain <- read.table("bank-sample.csv",header-TRUE,sep-",") 

# drop a few columns 

drops <- c("balance", "day", "campaign", "pdays", "previous", "month") 
banktrain <- banktrain [,!(names(banktrain) $in$ drops)] 


# testing set 
banktest <- read.table("bank-sample-test.csv",header-TRUE,sep-",") 
banktest «- banktest [,!(names(banktest) $in$ drops)] 








# build the naive Bayes classifier 
nb model <- naiveBayes (subscribed-., 
data-banktrain) 

# perform on the testing set 

nb prediction «- predict (nb model, 
# remove column "subscribed" 
banktest[,-ncol(banktest)], 
type='raw') 

score <- nb prediction[, c("yes") ] 
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actual class «- banktest$subscribed -- 'yes' 
pred «- prediction(score, actual class) 
perf «- performance(pred, "tpr", "fpr") 
plot(perf, lwd-2, xlab-"False Positive Rate (FPR)", 
ylab="True Positive Rate (TPR)") 
abline(a=0, b-1, col="gray50", lty=3) 
o 
© 
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真 阳性 率 (TPR) 
02 


00 


00 02 04 0.6 0.8 10 
伪 阳 性 率 (FPR) 
图 7.10 ”银行 营销 数据 集 的 朴素 贝 叶 斯 分 类 器 的 ROC 曲线 

































































“PSR 代码 显示 了 ROC 曲线 的 相关 AUC 数值 大 约 是 0.915。 


auc «- performance(pred, "auc") 

auc «- unlist(slot(auc, "y.values")) 
auc 

[1] 0.9152196 


7.4 其 他 分 类 方法 


除了 本 章 介 绍 的 两 种 分 类 器 以 外 , 还 有 其 他 几 种 常用 的 分 类 方法 , 包括 装 袋 (bagging )[15]、 
提升 (boosting ) [5] 、 随 机 森林 (random forest ) [4] 和 支持 向 量 机 ( support vector machine, SVM ) 
[16]。bagging boosting 和 随机 森林 都 是 集成 方法 的 例子 , 它们 使 用 多 个 模型 获取 比 任何 构成 模 


型 (constituent model ) 更 佳 的 预测 性 能 。 
bagging ( 又 称 为 bootstrap aggregating ) [15] 使 用 了 引导 技术 (bootstrap technique ), 11x 7] 
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根据 等 概率 分 布 从 数据 集中 反复 替换 (with replacement ) 抽样 。“ 蔡 换 ” 意 味 着 当 为 一 个 训练 久 
和 测试 集 选择 了 一 个 样本 的 时 候 ， 该 样本 依旧 保留 在 数据 集中 ， 而 且 可 以 被 再 次 选中 。 因 为 
样 是 可 替换 的 ， 一 些 样本 可 能 在 训练 集 和 测试 集中 出 现 多 次 ， 而 其 他 的 可 能 不 出 现 。 一 个 模型 



































7.5 Be 






















































































或 基础 分 类 器 基于 每 个 bootstrap 样本 分 开 训 练 ， 然 后 将 测试 样本 分 配给 得 到 最 高 投票 的 分 类 。 

-j bagging 类 似 ，boosting (或 者 AdaBoost ) [17] 分 类 投票 的 方式 将 每 个 模型 的 输 
合并 。 另 外 ， 它 还 合并 同类 型 的 模型 。 然 而 ，boosting 是 一 个 迭代 过 程 ， 先 前 建立 的 模型 的 
现 会 影响 新 的 模型 。 而 且 ，boosting 为 一 个 训练 样本 分 配 一 个 权重 来 反映 样本 的 重要 性 ， 然 后 
该 权重 可 以 在 每 轮 boosting 结束 的 时 候 进 行 适应 性 调整 。bagging 和 boosting 都 比 决策 树 有 着 
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: 用 决策 树 分 类 器 的 集成 方法 。 它 是 决策 树 预 测 器 的 组 合 ， 每 棵 决策 酌 
都 依赖 于 独立 抽样 且 分 布 相同 的 随机 向 量 的 值 。 随 机 森林 的 一 个 特例 是 在 决策 树 中 使 用 
























































































































































































































































































































































bagging， 其 中 样本 从 原始 训练 集中 随机 蔡 换 选择 。 

SVM[16] 是 另外 一 个 常见 的 分 类 方法 ， 它 将 线性 模型 和 基于 实例 的 学 习 技 术 进 行 了 结合 。 
SVM 从 每 个 分 类 中 选择 少量 名 为 支持 向 量 ( support vector ) 的 关键 边界 实例 ， 然 后 建立 一 个 线 
性 决策 函数 来 尽 可 能 远 地 将 支持 向 量 分 开 。SVM 默认 情况 下 可 以 有 效 地 执行 线性 分 类 ,也 可 以 




















配置 为 执行 非 线性 的 分 类 。 


















































715 总结 
本 章 着 重 介 绍 些 












































绍 了 两 种 分 类 方法 : 决策 树 与 朴素 贝 叶 斯 。 本 章 讨 论 了 这 些 分 类 圳 背后 的 理论 ， 

个 银行 营销 的 案例 来 解释 这 两 种 方法 在 实际 中 是 如 何 工作 的 。 这 些 分 类 器 以 及 逻辑 回归 

(第 6 革 中 ) 通常 用 来 进行 数据 分 类 。 本 书 还 讨论 了 这 些 方 法 各 自 的 优势 与 劣势 。 对 于 给 定 的 分 

类 问题 如 何 选 择 一 个 最 合适 的 方法 ? 图 7.8 所 示 为 在 选择 分 类 器 时 需 考 虑 的 事情 。 
R78 选择 一 个 合适 的 分 类 器 










































































































































































































































































































































































































































































问题 参考 方法 

除了 分 类 标签 外 , 分 类 的 输出 还 应 该 包括 分 类 的 概率 | 逻辑 回归 、 决 策 树 
分 析 师 们 想 了 解 变量 是 如 何 影响 模型 的 逻辑 回归 、 决 策 树 
问题 拥有 很 高 维度 朴素 贝 叶 斯 分 类 器 
一 些 输入 变量 可 能 是 关联 的 逻辑 回归 、 决 策 树 
一 些 输 入 变量 可 能 是 不 相关 的 VRBE, FR np 
数据 包含 的 分 类 变量 具有 大 量 的 层级 VRBE, FR LHS 
数据 包含 混合 变量 类 型 逻辑 回归 、 决 策 树 
E. OU i a 决策 机 

分 类 以 后 ， 可 以 使 用 几 种 评估 工具 来 衡量 一 个 分 类 器 的 性 能 ， No d § 的 性 能 进行 



































































































































比较 。 这 些 工具 包括 混淆 矩阵 、TPR、FPR、FNR、 准 确 案 、 召 回 认 、ROC 曲线 和 AUC。 
除了 决策 树 和 朴素 贝 叶 斯 以 外 ， 还 有 其 他 方法 可 用 作 分 类 咒 。 这 些 方法 包括 但 不 仅 限 了 








































































































第 7 章 高 级 分 析 理 论 与 方法 : 分 类 





bagging 、boosting 、 随 机 森林 和 SVM。 


7.6 练习 
1， 对 于 二 元 分 类 ， 请 描述 灼 可 能 值 。 在 哪些 情况 下 ， 粒 能 达到 
2.， 在 决策 树 中 ， 算 法 是 如 何 选择 用 于 分 裂 的 属性 的 ? 
3. John 的 头 很 痛 ， 去 看 医生 。 医 生 随 机 选择 John 进行 猪 流感 血液 测试 ， 这 次 猪 流感 涉嫌 
影响 到 全 国 1/5000 的 人 口 。 该 测试 99% 准 确 ， 伪 阳性 概率 是 1%， 伪 阴性 概率 是 0。John Bi 
试 结 果 呈 阳性 。 那 么 John 患 有 猪 流 感 的 概率 是 多 少 ? 
4. 哪 种 分 类 器 可 以 高 效 地 进行 高 维度 问题 的 计算 ?为 什么 ? 
5， 数 据 科学 团队 在 解决 一 个 分 类 问题 。 在 这 个 问题 中 ,数据 集 包 含 了 许多 关联 变量 ， 
其 中 大 部 分 是 分 类 变量 。 那 么 他 们 应 该 考虑 使 用 哪 种 分 类 器 ?为 什么 ? 
6. 数据 科学 团队 在 解决 一 个 分 类 问题 。 在 这 个 问题 中 ， 数 据 集 包含 了 许多 关联 变量 ，| 
其 中 大 部 分 是 连续 变量 。 除 了 分 类 标签 外 ， 该 团队 还 想 让 模型 输出 概率 ， 那 么 他 们 应 该 考虑 使 


























用 小 值 和 最 大 值 ? 
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7 考虑 下 面 的 混淆 矩阵 。 
预测 分 类 
好 坏 总 计 
好 671 29 300 
真实 分 类 坏 38 262 700 
总 计 709 291 1000 









































真 阳性 率 、 伪 阳性 率 和 伪 阴 性 率 各 自 是 多 少 ? 
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高 级 分 析 理 论 与 方法 : 
时 间 序 列 分 析 


关键 概念 

ACF 
ARIMA 

自 回归 
移动 平均 线 
PACF 
时 间 | 序列 


8.1 时 间 序 列 分 析 概 述 






































本 章 讲解 时 间 序 列 分 析 及 其 应 用 ， 重 点 是 识别 时 间 序 列 的 底层 结构 并 将 其 拟 合 为 一 个 适 
当 的 自 回 归 求 和 移动 平均 ( Augogressive Integrated Moving Average，ARIMA ) 模型 。 
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8.1 时 间 序 列 分 析 概 述 

时 间 序 列 分 析 试图 模型 化 一 段 时 间 内 观测 到 的 数据 的 底层 结构 。 一 个 时 间 序 列 ( 表示 为 = 
a + bX ) 是 一 个 在 时 间 上 具有 相同 间隔 值 的 有 序 序列 。 例 如 ， 图 8.1 中 提供 了 在 12 年 内 每 个 月 
国际 航空 乘客 的 数量 。 
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图 8.1 国际 航空 乘客 的 每 月 数量 
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在 这 个 例子 中 ， 时 间 序 列 是 144 个 值 的 有 序 序列 。 本 章 讲解 的 分 析 只 限于 单个 变量 的 等 
时 间 序 列 。 时 间 序 列 分 析 的 目标 如 下 : 
e ”对 时 间 序 列 的 结构 进行 识别 和 建 模 ; 
e ”预测 时 间 序列 中 未 来 的 值 。 
时 间 序 列 分 析 在 金融 、 经 济 、 生 物 、 工 程 、 零 售 和 制造 业 中 有 许多 应 用 。 以 下 是 一 些 详 旨 
的 用 例 。 
e 零售 销售 : 对 于 各 种 产品 线 ， 服 装 零售 商 要 预测 未 来 的 月 度 销售 。 这 些 预 测 需要 考虑 
到 客户 购买 决策 的 季节 效应 。 比 如 ， 在 北半球 ， 毛 衣 的 销售 在 秋季 通常 比较 活跃 ,六 
衣 的 销售 在 春 末 和 夏 初 最 高 。 因 此 ， 一 个 合适 的 时 间 序 列 模型 需要 考虑 到 历年 的 波动 性 
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e 备件 计划 : 公司 的 服务 组 织 需要 预测 未 来 对 备件 的 需求 ， 以 确保 有 足够 的 零件 来 维修 

客户 产品 。 备 件 清单 通常 有 成 干 上 万 种 不 同 的 零件 。 为 了 预测 未 来 需求 ， 可 以 使 用 答 
货 量 以 及 预测 的 折 
简单 地 根据 之 前 的 






































































































































入 变量 ( 比如 预期 的 零件 故障 率 、 服 务 诊断 效果 、 预 测 的 新 产品 出 
日 /报废 ) 为 每 一 种 零件 建立 复杂 的 模型 。 然 而 ， 时 间 序 列 分 析 可 以 
备件 直 求 历史 来 提供 准确 的 短期 预测 。 
































































































































第 8 章 高 级 分 析 理 论 与 方法 : 时 间 序 列 分 析 


















































e REXI: 一 些 高 频 股票 交易 员 使 用 了 一 种 名 为 配对 交易 〈 pairs trading) 的 技术 。 配 

对 交易 利用 两 个 股票 价格 之 间 的 确定 的 强 正 相关 性 来 发 现 市 场 机 遇 。 假 设 A 公司 和 B 
公司 的 股票 价格 一 直 一 起 波动 。 时 间 序 列 分 析 可 以 应 用 于 这 些 公司 随时 间 变 化 的 股价 
差异 。 一 个 统计 意义 上 大 于 期 望 值 的 价格 差异 意味 着 购买 A 公司 股票 和 抛售 B 公司 股 
票 (或 者 反 过 来 卖 A 买 B ) 的 好 时 机 。 当 然 ， 这 个 交易 方法 依赖 于 快速 执行 交易 的 能 
力 , 以 及 能 够 察觉 到 股价 相关 性 的 失效 。 配对 交易 是 属于 统计 套利 ( statistical arbitrage ) 
交易 策略 中 许多 技术 的 一 种 。 




























































































































































































































































































8.4.4 Box-Jenkins 方法 


在 本 章 中 , 一 个 时 间 序 列 由 在 时 间 上 具有 相同 间隔 值 的 有 序 序列 组 成 。 时 间 序列 的 例子 可 
以 是 每 月 的 失业 率 、 每 天 的 网 站 访问 次 数 ， 或 者 是 每 秒 的 股价 价格 。 一 个 时 间 序 列 可 以 由 以 
下 部 分 组 成 : 
趋势 ; 
季节 效应 ; 
周期 ; 
随机 性 。 
趋势 (trend ) 指 的 是 时 间 序 列 中 的 长 期 移动 。 它 表示 观测 值 是 否 随 着 时 间 变 化 增加 或 降低 。 
趋势 的 例子 包括 每 月 销售 的 稳定 增长 或 每 年 因 车 祸 死 亡 人 数 的 下 降 。 
季节 效应 (seasonality ) 描述 了 观测 数据 在 时 间 上 的 固定 的 周期 性 波动 。 顾 名 思 义 ， 季 节 效 
应 通常 都 和 历法 有 关 。 例 如 ， 年 内 的 月 度 销售 可 能 因 天 气 和 假期 的 因素 而 波动 。 
周期 (cylic ) 也 可 以 视 作 周 期 性 波动 ， 但 是 它 不 像 季 节 效 应 那样 固定 。 例 如 ,零售 可 能 受 
到 经 济 总 体 状况 的 有 影响。 因此， 零售 时 间 序 列 可 能 常 弟 遵循 经 济 繁 末 与 处 条 的 周期 。 
最 后 一 个 部 分 是 随机 性 (random )。 尽 管 噪声 肯定 是 随机 性 的 一 部 分 , 但 是 经 常 存在 随机 性 
的 某 种 底层 结构 可 以 对 其 进行 建 模 ， 以 预测 给 定时 间 序 列 的 未 来 值 。 
George Box 和 Gwilym Jenkins 开发 的 Box-Jenkins 时 间 序 列 分 析 方 法 包括 下 列 三 个 主要 
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1 治理 数据 与 选择 模型 。 
@ 识别 和 考虑 时 间 序 列 中 的 任何 趋势 与 季节 效应 。 
e 评估 其 余 的 时 间 序 列 并 确定 一 个 合适 的 模型 。 



























































































































































必要 ， 返 回 第 1 步 。 
本 章 的 主要 目的 是 使 用 Box-Jenkins 方法 将 一 个 ARIMA 模型 应 用 到 一 个 给 定 的 时 间 序 列 。 
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8.2 ARIMA 模型 





8.2 ARIMA 模型 


为 了 完整 解释 ARIMA ( 自 回归 求 和 移动 平均 ) 模型 ， 本 节 描 述 了 模型 的 各 个 组 成 部 分 以 
及 它们 是 如 何 结合 在 一 起 的 。 正 如 Box-Jenkins 方法 的 第 1 步 中 摘 述 的 那样 ， 有 必要 把 趋势 和 季 
节 效 应 从 时 间 序 列 中 移 除 。 要 取得 一 个 具有 某 些 属性 的 时 间 序 列 ， 从 而 能 够 应 用 自 回归 和 移动 
平均 模型 ， 这 一 步 是 必需 的 。 这 种 时 间 序 列 称 为 平稳 时 间 序 列 〈stationary time series )。 一 个 时 
间 序 列 六 (大 12.3,… )， 如 果 满 足下 面 的 三 个 条 件 ， 就 是 平稳 时 间 序列 。 

e (a) yy 的 期 望 值 (均值 ) 对 于 所 有 的 t 值 都 为 常数 。 

© (b) y 的 方差 是 有 限 的 。 

e (c) 对 于 所 有 的 1+，y, 和 和 yim 的 协 方差 值 只 依赖 于 h= 0,1,2.. 

六 和 yi 的 协 方差 可 以 衡量 y, 和 ys 两 个 变量 是 如 何 一 起 变 变化 的 ， 如 公式 8.1 所 示 。 
covCy,, y,,4,) = ElCy, = t y, — Hin] (8.1) 

如 果 两 个 变量 相互 独立 ， 那 么 它们 的 协 方差 是 0。 如 果 两 个 变量 向 着 同一 个 方向 变化 ， 那 
么 它们 的 协 方差 是 正 的 。 反 之 ,如 果 两 个 变量 向 着 相反 方向 变化 ,那么 它们 的 协 方差 就 是 负 的 。 

对 于 平稳 时 间 序 列 , 根据 条 件 (a )， 其 均值 为 常数 ， 称 为 上。 所 以 ， 对 于 一 个 给 定 的 平稳 序 
列 y,， 协 方差 的 标识 可 以 简化 为 公式 8.2 所 示 。 
cov(h) = El(y, 一 上 0 一 J] (82) 
根据 条 件 (c )， 时 间 序 列 中 两 个 时 间 点 之 间 的 协 方 差 可 以 不 为 零 ， 只 要 协 方 差 的 值 是 h 的 
一 个 函数 。 公 式 8.3 给 出 了 /=3 的 例子 。 
cov(3) = cov(y;, Y4) = cov(y,, Ys) — ... (8.3) 
重点 注意 的 是 ， 对 于 h-0, 所 有 + 的 cov(0) = cov(yuy) = var)s ALA Heros 根据 条 件 
(b )， 对 于 所 有 上 值 ， ”的 方差 为 常数 。 所 以 ， 对 于 所 有 的 {t 和 常数 u 来 说 ， 这 个 津 数 方差 值 和 
条 件 (a) GI ED=A) 表明 一 个 平稳 时 间 序 列 看 起 来 像 图 8.2 所 示 。 在 该 图 中 ， 数 据点 看 起 来 
是 以 一 个 固定 的 常量 (0 ) 为 中 心 ， 方 差 看 起 来 是 一 个 常数 。 
















































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































8.2.4 自 相 关 函 数 (ACF ) 
尽管 图 8.2 中 的 时 间 序 列 不 存在 一 个 总 体 趋 势 ， 但 是 看 起 来 每 个 点 在 某 种 程度 上 都 依赖 于 
过 去 时 间 的 点 。 但 是 我 们 无 法 通过 图 了 解 时 间 序 列 中 变量 的 协 方差 及 其 底层 结构 。 自 相关 函数 
(ACF) 图 解决 了 这 个 问题 。 对 于 平稳 时 间 序 列 ，ACE 的 定义 如 公式 8.4 所 示 。 






































































































































































































































COV(Y, + Vian) . cov(h) 


ACF (h) = 
SEV,» Y, )cov(y Yran) COVO) 


(8.4) 
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图 8.2 一 个 平稳 序列 的 图 示 




































































因为 cov(0) 77 #2, ACF 与 两 个 变量 的 相关 函数 corr (y+yn 由 类 似 ， 其 值 介 于 -1 一 1。 因 此 ， 
ACEFd) 的 绝对 值 越 接近 1, ， 那 么 y 越 能 作为 yw 的 有 效 预 测 。 
使 用 图 8.2 中 的 同一 个 数据 集 ，ACE 的 图 如 图 8.3 所 示 。 
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图 8.3 ” 自 相关 函数 (ACF ) 











按照 常规 ，ACF 中 的 tO lag, SE TRI, (RI tth 的 差异 。 当 lag 是 0 的 时 候 ，ACF 
提供 每 个 点 与 其 本 里 的 相关 性 。 所 以 ACF(0) 总 是 等 于 1。 根 据 ACF 图 ， 当 lag 是 1 的 时 候 ，y 
和 yi 的 相关 性 大 约 是 0.9, 非常 接近 1。 所 以 yi 对 yy, 的 值 似乎 是 一 个 不 错 的 预测 。 因为 ACF) 
的 值 在 0.8 左右 ， 所 以 y XT yy, 似乎 是 也 一 个 不 错 的 预测 。 类 似 的 论证 也 适用 于 lag 3 到 lag 8. 
(所 有 的 自 相 关系 数 都 大 于 0.6 )。 换 句 话说 ， 可 以 考虑 这 样 一 个 模型 ， 该 模型 将 y, 表述 为 先前 8 
个 项 的 线性 和 。 这 类 模型 被 称 为 8 阶 自 回归 模型 。 
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8.2.2 自 回归 模型 


对 于 一 个 平稳 时 间 序 列 y,, 1=1,2,3,..., REAR ARHI p 阶 自 回归 模型 如 公式 8.5 所 示 。 
Y, =+ QY HOY HHO, Yp HE (8.5) 
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8.2 ARIMA 模型 

















HH, 
6 是 一 个 以 非 零 为 中 心 的 时 间 序列 的 常量 ; 
D; j=1,2,....p 时 的 一 个 常量 ; 
Yj 是 在 时 间 妇 时 的 时 间 序 列 的 值 ; 
D, #0 ; 
STATA HB, &7—N0. 02). 
因此 ， 时 间 序 列 中 一 个 特定 的 点 可 以 被 表述 为 时 间 序 列 中 前 p “MEL yj (其 中 , j=1,2,...p) 
的 线性 组 合 , 外 加 一 个 随机 的 误差 项 ae 在 这 个 定义 中 ,时 间 序列 的 & 通常 称 为 白 噪声 于 ( white 
noise process )， 用 来 表示 时 间 序 列 中 的 随机 、 独 立波 动 的 部 分 。 
在 图 8.3 的 示例 中 ， 前 儿 个 lag 的 自 相 关系 数 非 常 高 。 对 于 给 定 的 数据 集 ， 尽 管 AR(8) 模 型 
可 能 已 经 是 一 个 好 的 候选 模型 ， 通 过 评估 一 个 AR(1) 模 型 可 以 对 ACK 与 要 选择 的 p 值 有 一 个 更 
好 的 见解 。 对 于 AR(1) 模 型 ， 以 6=0 为 中 心 ， 公 式 8.5 被 简化 为 公式 8.6。 
y, 7 6, y, +E, ( 8.6) 
基于 公式 8.6， 很 明显 = Qi yten A, ERA yi 后 生成 公式 8.70 




























































































































































































































































































































































































































































































y, =Y, 2 HE1) tE, 

=P Y TUER tE, 
Kk, 75808 AROR EA, 4 lag =2 时 ， 可 以 预计 自 相 关系 数 相 当 大 。 因 为 这 
个 替换 过 程 是 不 断 重复 的 ，y 可 以 表示 为 yj 的 函数 (hh = 3,4...) 然后 加 上 误差 项 。 这 种 观测 意味 
着 即使 在 AR(1) 模 型 中 ， 较 大 的 lag 也 会 带 来 相当 大 的 自 相 关系 数 ， 即 使 这 些 lag 没有 显 式 包含 在 
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模型 中 。 NAE y Fl yan Ch = 1,2,3...) 之 间 的 自 相 关系 数 ， 并 在 测量 中 除去 wa 到 yu E 
的 影响 。 部 分 自 相 关 函 数 (PACF) 提供 了 这 种 测量 ， 如 会 式 8.8 所 示 。 
PACF(h) = corr(y, — y`, Visa a Ya) forhz2 
co11= Cy, y.) for h=1 (8.8 ) 
E y, = G Yra tio Cus Yam Oa POV B Xd 
WF BAS n-1 值 是 基于 线性 回归 的 。 
换 句 话说 ， 在 使 用 线性 回归 移 除 ”与 ww 之 间 的 变量 对 ww 和 yan 的 影响 后 ，PACEF 就 是 剩余 






























































的 相关 系数 。 当 h=1 的 时 候 ，y, 和 yw 之 间 没 有 变量 。 所 以 PACF(1) 等 于 ACF(1)。 尽 管 PACF 
的 计算 多 少 有 些 复杂 ， 但 许多 软件 工具 中 已 经 集成 了 相关 计算 。 

在 先前 的 示例 中 ,图 8.4 中 的 PACF 图 解释 了 在 lag = 2 之 后 ，PACF 的 值 急剧 减少 。 因 
比 ,在 移 除 ya 和 yw1 值 的 影响 之 后 ,yoy M yani 的 部 分 相关 性 也 就 相对 小 了 。 当 h = 4.5 
时 ， 也 可 以 观察 到 类 似 的 情况 。 图 8.4 表明 AR(2) 对 于 图 8.2 中 的 时 间 序 列 是 一 个 不 错 的 候 
选 模型 。 实 际 上 ， 该 例 中 时 间 序 列 数据 是 基于 y, =0.6y,. + 0.35y,z+a 随 机 生成 的 ， 其 中 a ~ 
( 0,4 )。 
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Partial ACF 
00 02 04 06 08 


图 8.4 部 分 自 相 关 函 数 (PACF ) 图 


因为 ACF 和 PACF 是 基于 相关 性 的 ， 所 以 正 值 和 负 值 都 有 可 能 。 因 此 ， 对 于 各 种 lag fi, 
应 该 考虑 函数 大 小 的 绝对 值 。 























































































































8.2.8 移动 平均 模型 
对 于 以 零 居中 的 时 间 序 列 y,， 表 示 为 MA(q) 的 q 阶 移动 平均 模型 如 公式 8.9 所 示 。 
Y, =E, HOE t+ 0E- (8.9) 
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0,70, 
HFA t, &—N(, o2). 

在 一 个 MA(q) 模 型 中 ， 时 间 序 列 的 值 是 当前 白 噪声 项 和 先前 q 个 白 噪 声 项 的 线性 组 合 。 所 以 
先前 的 随机 冲击 (random shock ) 直接 影响 到 时 间 序 列 的 当前 值 。 对 于 MA(q) 模 型 ，ACF 和 PACF 
的 行为 在 某 种 程度 上 从 AR(p) 模 型 的 行为 中 被 置换 了 。 对 于 一 个 模拟 的 MA(G3) 时 间 序 列 ， 其 形式 
Jy yee-045&4*1.&5-25455, Hrs ~N0,1), B 8.5 中 提供 了 模拟 数据 在 时 间 上 的 散 点 
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图 8.5 一 个 模拟 的 MA(3) 时 间 序 列 的 散 点 图 











8.2 ARIMA 模型 



































图 8.6 提供 了 模拟 数据 的 ACF 图 。ACF(0) 等 于 1, 因为 任何 变量 都 与 自身 完全 相关 。 当 lag 
等 于 1、2 和 3 WIN, ACF 的 绝对 值 比 后 续 项 要 大 。 在 一 个 自 回归 模型 中 ，ACEF 缓慢 衰减 ， 
EXT MAG)SUS, ACF F lag = 3 以 后 突然 截断 。 一 般 而 言 ,这 种 模式 可 以 扩展 到 任何 MA(q) 
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图 8.6 一 个 模拟 的 MA(3) 时 间 序 列 的 ACF 图 












































为 了 理解 为 什么 会 发 生 这 种 现象 , 对 于 M(3) 时 间 序 列 模型 ， 有 必要 检查 公式 8.10 到 公式 8.14。 



































y, =E, 0, , - 6,6, 4-656, , ( 8.10) 
EL €, 440-06, + OE3 + OE4 (8.11) 
LL €, 9 +0 E3 4-0,e, ,4- OE, ( 8.12) 
Y3= €, HOE, , 9-056, ,4-0,€ (8.13 ) 
Y4 = €, 40-06, , 4-06, , +9; (8.14) 




































































因为 y. 表 达 式 与 表达 式 yi 到 ys 共享 了 特定 的 白 噪声 变量 ,因此 这 三 个 变量 都 与 六 相关 联 。 
然而 ,公式 8-11 中 的 y 表 达 式 和 公式 8-14 中 的 ws 没有 共享 白 噪 声 变量 。 所 以 六 和 4 之 间 的 
相关 系数 理论 上 是 0。 当 然 ， 当 处 理 特定 数据 集 的 时 候 ， 理 论 上 的 自 相 关系 数 是 未 知 的 ， 但 丰 
当 处 理 一 个 MA(q) 模 型 时 ， 如 果 lag 大 于 q， 观 测 到 的 自 相 关系 数 应 该 接近 0。 
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8.2.4 ARMA fll ARIMA 模型 


通常 情况 下 ， 数 据 科 学 家 无 需 在 AR(p) 和 MA(q) 模 型 之 间 进行 选择 来 描述 时 间 序 列 。 
实际 上 ， 将 这 两 种 表示 个 模型 中 更 有 用 。 平 稳 时 间 序 列 的 这 种 两 种 模型 的 结 
合 将 产生 自 回归 移动 平均 ( Autoregressive Moving Koa ) 模型 ARMA(p,q)， 如 公式 8-15 
所 示 。 
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Y =6 PY | Q5 Y,» Pet PrVi-p 


8.15 
€, - 0e, 1 十 … 二 0.e 























中 ， 对 于 以 非 零 为 中 心 的 时 间 序 列 ， 8 为 常数 ， 
WFj=1,2,.. p, ORR, 
D, #0, 
对 于 Kk= 1, 2, ……,q，@ 是 常数 ， 
z 0, 
WFAN t, &—N (0,02). 
如 果 p=0 以 及 gqz0， 那 么 ARMA(p,q) 模 型 则 简化 成 AR(p) 模 型 。 如 果 p=0 以 及 qz0, HBA 
ARMA(p,q) 模 型 就 是 MA(q) 模 型 。 
为 了 合理 地 应 用 ARMA 模型 ， 时间 序 列 必须 是 一 个 平稳 时 间 序 列 。 然 而 , 许多 时 间 序 列 随 
时 间 时 现 一 定 的 趋势 。 图 8.7 所 示 为 一 个 随 着 时 间 时 现 线性 增长 趋势 的 时 间 序 列 。 因 为 这 样 的 
一 个 时 间 序 列 不 满足 固定 期 望 值 ( 均值 ) 的 要 求 ， 那 么 就 需要 调整 数据 来 移 除 这 种 趋势 。 一 种 
可 能 的 转换 是 对 时 间 序 列 执行 回归 分 析 ， 然 后 从 每 个 观察 到 的 y 值 中 减 去 拟 合 回归 线 的 值 。 
者 高 阶 回归 模型 消除 趋势 不 能 产生 一 个 平稳 的 序列 ， 第 二 种 选项 是 计算 连 
续 y 值 之 间 的 差异 。 这 就 是 所 谓 的 差分 法 (differencing )。 换 名 话说 ， 对 于 给 定时 间 序 列 中 的 n 
个 值 ， 其 差异 的 计算 如 公式 8-16 所 示 。 



































































































































































































































































































































































































































































































































































































































d,=y,-y,. HP t2,3,...0 ( 8.16 ) 
8 
S 
> 
B 
e 
0 10 20 30 40 50 
时 间 





图 8.7” 带 有 趋势 的 时 间 序 列 


图 8.8 中 绘制 的 时 间 序 列 的 均值 表 定 不 是 一 个 常数 。 对 该 时 间 序 列 应 用 差分 法 后 的 结 
Z 8.9 所 示 。 在 该 图 中 的 时 间 序 列 中 有 一 个 常数 均值 和 一 个 不 随时 间 变 化 的 常数 方差 。 
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8.2 ARIMA 模型 








时 间 








差分 之 后 的 y 值 





时 间 





图 8.9 ”使 用 差分 法 消除 时 间 序 列 的 趋势 













































































如 果 进 行 差分 后 的 时 间 序 列 还 不 够 平稳 ， 那 么 对 时 间 序 列 再 次 进行 差分 可 能 会 有 帮助 。 公 
式 8-17 对 于 t= 3, 4, ...n 提供 了 两 次 差分 的 时 间 序 列 。 


























d, =d, = Cy, Pu ya) — (yi p Vea) 

































































(8.17) 
=y; = 2y, s Jia 
尽管 可 以 应 用 连续 差分 ， 但 是 需要 避免 过 度 差 分 。 一 个 原因 是 过 度 差分 可 boe E ie 
加 方差 。 如 图 8.10 所 示 ， 在 对 y 值 差分 两 次 以 后 ， 增 加 的 方差 可 以 通过 绘制 可 能 的 过 度 差分 人 





























































































































检测 到 ， 并 观察 到 值 的 范围 (spread) 更 大 了 。 

因为 经 常 需要 让 一 个 时 间 序 列 成 为 平稳 的 , 因此 可 以 通过 定义 自 回归 求 和 移动 平均 模型 
( 表示 为 ARIMA(p,d,q) )， 将 差分 包含 (集成) 到 ARMA 模型 中 。ARIMA 模型 的 结构 与 公 
A 8-15 中 的 表达 式 相 同 ， 但 是 在 应 用 了 d 次 差分 之 后 ，ARMA(p,q) 模 型 才能 应 用 到 时 间 序 
JJ y. E. 
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两 次 差分 之 后 的 y 值 
5 0 § 10 15 


-15 


时 间 








图 8.10 ”二 次 差分 后 的 序列 














另外 , 通常 需要 考虑 时 间 








| 中 的 季节 效应 模式 (seasonal pattern )。 比 如 ， 在 
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售 示例 中 ,每 月 服装 销售 轨迹 
























































8.1 市 中 的 零 











历 月 份 接近 。 与 先前 方法 中 首先 应 用 线性 回归 消 








除 趋 势 类 似 ， 


















































可 以 确定 季节 效应 模式 并 对 时 间 序 列 做 相应 的 调整 


5] 














(BD,Q,, Hu: 
€ p、d, 和 gq 与 前 面 的 定义 一 样 ; 
© s 表示 为 季节 时 段 ; 

P 是 AR 模型 中 项 (item ) Æ s 时 段 上 的 数量 ; 
D 是 在 s 时 段 上 差异 的 数量 ; 
Q 是 MA 模型 中 项 (item ) YE s 时 段 上 的 数量 。 





























































































































个 可 选 方案 
























































































































































下 一 节 中 将 介绍 季节 效应 ARIMA 的 示例 ， 并 描述 几 种 用 来 确 


























术 和 方法 。 


8.2.5 建立 和 评估 ARIMA 模型 


对 于 一 个 大 国家 ， 我 们 已 经 获取 了 在 过 去 240 个 月 
FW). 一 家 市 场 调 研 公 司 需 要 一 些 短期 的 汽油 产量 预测 ， 
以 及 对 汽油 价格 的 影响 。 


library (forecast) 
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# read in gasoline production time series 


e 
e 
e 
对 于 具有 季节 效应 模式 的 时 间 序列 ， 以 下 是 典型 的 s fH: 
e 
e 
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j 季 节 自 回归 求 和 移动 
平均 模型 (seasonal autoregressive integrated moving average model )， 表 示 为 ARIMA(p,d,q) x 












































(20) 内 



































定 合适 模型 和 预测 未 来 的 技 
的 每 月 汽油 产量 (单位 : 百 
以 评估 石油 行业 保障 汽 ? 












































| 供应 的 能 力 











8.2 ARIMA 模型 





# monthly gas production expressed in millions of barrels 
gas prod input «- as.data.frame( read.csv("c:/data/gas prod.csv") ) 


# create a time series object 
gas prod <- ts(gas prod input[,2]) 


#examine the time series 
plot(gas prod, xlab - "Time (months)", 
ylab = "Gasoline production (millions of barrels)") 


借助 于 R 语言 ， 绘 制 的 数据 集 如 图 8.11 所 示 。 














石油 产量 ( 百 万 桶 ) 
400 


340 


0 50 100 150 200 
时 间 (H) 
图 8.11 每 月 汽油 产量 


在 RR 中 , ts0 国 数 从 一 个 向 量 或 一 个 矩阵 中 创建 了 一 个 时 间 序 列 对 象 。 在 R 中 使 用 时 间 序列 
对 象 可 以 简化 分 析 ， 因 为 R 中 提供 了 几 个 量 身 定制 的 方法 来 处 理 相等 时 间 间 隔 的 数据 序列 。 例 
如 ，plot0 函 数 不 需 要 为 X 轴 明 确 指定 变量 。 

应 用 ARMA 模型 的 数据 集 需要 是 一 个 平稳 的 时 间 序 列 。 使 用 diff0 函 数 对 汽油 产量 时 间 序 
列 进行 一 次 差分 后 如 图 8.12 所 未 。 
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diff(gas prod) 
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时 间 
图 8.12 ”差分 后 的 汽油 产量 时 间 序列 
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plot (diff(gas prod)) 
abline(a=0, b=0) 


差分 后 的 的 时 间 序 列 有 一 个 接近 为 0 的 常数 均值 ， 以 及 一 个 常数 方差 。 因 此 ， 我 们 获得 了 
一 个 稳定 的 时 间 序 列 。 使 用 下 面 的 R 代码 ， 差 分 后 序列 的 ACF 和 PACF 图 分 别 如 图 8.13 和 图 
8.14 所 示 。 
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# examine ACF and PACF of differenced series 
acf(diff(gas prod), xaxp = c(0, 48, 4), lag.max-48, main="") 
pacf(diff(gas prod), xaxp = c(0, 48, 4), lag.max=48, main="") 


虚线 给 出 了 在 95 多 的 可 信 度 时 的 上 下 界限 。 位 于 边界 外 的 ACF 或 PACF 的 任何 值 都 表示 该 
15 0 显 车 不同 。 
图 8.13 显示 了 几 个 显著 的 ACEF 值 。ACF 值 在 lag 12, 24, 36 和 48 处 的 缓慢 衰减 是 我 们 特 
别 感 兴趣 的 。ACF 中 的 类 似 行为 可 以 在 图 8.3 中 看 到 ， 但 是 仅 限 于 lag 1、2、3、...。 图 8.13 X 
明了 一 个 每 12 个 月 的 季节 效应 自 回 归 模 式 。 查 看 图 8.14 中 的 PACF 曲线 可 以 看 到 , 在 lag 12 
的 时 候 PACE 值 相 当 大 ,但 PACF 值 在 lag 24、36 和 48 的 情况 下 又 接近 于 0。 因此， 会 考虑 一 
个 周期 等 于 12 的 季节 AR (1) 模型 。 整 体 ARMA 模型 中 的 季节 效应 部 分 常 靖 应 当 比 模型 的 非 
季节 性 效应 部 分 先 处理 。 
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图 8.13 ”差分 后 的 汽油 时 间 序 列 的 ACF 
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图 8.14 ”差分 后 的 汽油 时 间 序 列 的 PACF 


8.2 ARIMA 模型 












































R 中 的 arima0 函 数 用 来 拟 合 一 个 (0,1,0) x (L.0.0) 模型 。 分 析 应 用 于 原始 时 间 序列 变量 
gas_prod。 差 分 值 d=1 是 由 order=c(0,1,0) 项 指定 。 








te 

































































arima 1 «- arima (gas prod, 
order-c(0,1,0), 
seasonal = list(order-c(1,0,0),period-12)) 
arima 1 
Series: gas prod 
ARIMA(0,1,0) (1,0,0) [12] 
Coefficients: 
sarl 
0.8335 
s.e. 0.0324 
sigma^2 estimated as 37.29: log likelihood=-778.69 
AIC=1561.38 AICc=1561.43 BIC=1568.33 


季节 效应 AR CI) 模型 的 系数 值 估计 为 0.8335， 标 准 误差 为 0.0324。 因 为 估计 值 和 0 相差 
若干 标准 误差 ， 因 此 该 系数 被 认为 是 显著 的 。 这 遍 ARIMA 分 析 的 输出 存储 在 变量 arima_1 中 ， 
该 变量 包含 了 几 个 有 用 的 量 ( 其 中 包括 残 差 )。 下 一 步 是 从 拟 合 (0,1,0) x (1,0,0)12ARIMA 模型 中 
KERZ. Rž ACF 和 PACF 图 如 图 8.15 和 图 8.16 所 示 。 


# examine ACF and PACF of the (0,1,0)x(1,0,0)12 residuals 

acf(arima l$residuals, xaxp = c(0, 48, 4), lag.max-48, main="") 

pacf(arima l$residuals, xaxp = c(0, 48, 4), lag.max-48, main="") 
e 


= 














































































































































































































wu» 
eo 
[e] 
< 
o 
o 
Lr 
9 
0 12 24 36 48 
Lag 


图 8.15 ”季节 效应 AR (1) 模型 的 残 差 ACF 
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8.16 ”季节 效应 AR (1) 模型 中 的 残 差 PACF 
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图 8.15 中 残 差 的 ACF 图 表明 在 lag 12,24, 26 和 48 中 的 自 回归 行为 已 经 被 季节 效应 AR(1) 
项 解决 。 唯 一 剩余 的 ACF 值 发 生 在 当 lag 1 的 时 候 。 在 图 8.16 中 , 在 lag 1、2、3 和 4 的 时 候 ， 
有 几 个 显 车 的 PACEF 值 。 
从 图 8.16 中 的 PACF 图 可 以 看 到 ，PACF 是 缓慢 衰减 的 ， 而 ACF 在 lag 1 处 陡然 削减 ， 
此 对 于 差分 序列 上 ARMA 模型 的 非 季节 部 分 ， 应 该 考虑 MA(1) 模 型 。 换 句 话说 ， 一 个 (0,1,1) x 
(1,0,0)12ARIMA 模型 将 被 用 来 拟 合 原始 的 汽油 产量 时 间 序 列 。 












































































































































































































































arima 2 «- arima (gas prod, 
order-c(0,1,1), 
seasonal = list(order-c(1,0,0),period-12)) 
arima_2 
Series: gas_prod 
ARIMA (0,1,1) (1,0,0) [12] 
Coefficients: 
mal sarl 
-0.7065 0.8566 
s.e. 0.0526 0.0298 


sigma^2 estimated as 25.24: log likelihood=-733.22 
AIC=1472.43 AICc=1472.53 BIC=1482.86 


acf(arima 2$residuals, xaxp = c(0, 48, 4), lag.max=48, main="") 
pacf(arima 2$residuals, xaxp = c(0, 48,4), lag.max-48, main="") 


基于 每 个 系数 估计 的 标准 误差 ， 系数 是 显 车 不 同 于 0 的。 在 图 8.17 和 图 8.18 中 ， 第 二 遍 
ARIMA 模型 分 析 的 残 差 的 ACE 和 PACF 图 表明 ， 不 需要 在 ARIMA 模型 中 考虑 更 多 的 项 。 
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817 (011,1) x (1,0,0 ) 12 模型 中 的 残 差 的 ACF 
































应 该 注意 的 是 ，ACF 和 PACF 图 在 95% 的 可 信 度 时 ， 各 有 几 个 点 接近 界限 。 然 而 ， 
些 点 是 在 比较 大 的 lag 的 情况 下 产生 的 。 为 了 避免 过 度 拟 合 模型 ， 这 些 值 被 归 因 于 巧合 
所 以 没有 尝试 将 这 些 lag 放 入 模型 。 然 而 ， 最 好 是 将 一 个 合理 拟 合 的 模型 与 该 模型 的 细微 
变种 进行 比较 。 































































































































































































8.2 ARIMA 模型 
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图 8.18 (0,1,1) x (1,0,0) 12 模型 中 的 残 差 的 PACF 














. 比较 拟 合 的 时 间 序 列 模型 

R es arima0 函 数 使 用 最 大 似 然 估 计 (MLE ) 来 估计 模型 系数 。ARIMA 模型 的 R 输出 中 
提供 了 对 数 似 然 值 (logL )。 模 型 系数 的 取 值 使 得 对 数 似 然 函 数值 最 大 。 基 于 logL 的 值 , R 输出 
提供 了 几 个 度量 ， 可 以 用 来 比较 两 个 拟 合 模型 的 适当 性 。 这 些 度 量 如 下 : 

€ AIC ( Akaike 信息 准则 ); 

€ AICc (矫正 后 的 Akaike 信息 准则 ); 

€ BIC ( Bayesian 信息 准则 )。 
AL yix eye n EET mp e m SCR SU SET, IBA E SHUT A BURN ZH ee] NJ 
AIC, AICC zk BIC 值 。 表 8.1 为 已 经 拟 合 的 ARIMA 模型 以 及 几 个 额外 的 拟 合 模型 提供 了 信息 
准则 度量 。 表 中 突出 显示 的 行 对 应 于 拟 合 后 的 ARIMA 模型 ， 该 模型 在 前 面 讲解 ACF 和 PACF 
多 时 获得 。 



















































































































































































































































































































































































































































































































































































表 8.1 衡量 拟 合 优 度 的 信息 准则 

















ARIMA 模型 (p,d,q) x (P,Q,D)s AIC AICC BIC 

(0,1,0) X (1,00) 1561.38 1561.43 1568.33 
(0,1,1) X (1,0,0)12 1472.43 1472.53 1482.86 
(0,1,2) X (1,00) 1474.25 1474.42 1488.16 
(1,1,0) X (1,00) 1504.29 1504.39 1514.72 
(1,1,1) X (1,00); 1474.22 1474.39 1488.12 
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在 这 个 数据 集中 ， 相 对 于 其 他 ARIMA 模型 的 相同 准 侧 度量 ，(0,1,1) x (1,0,0) 模型 
最 低 的 AIC, BIC 和 AICc 值 。 

















确实 有 
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2. 正 态 性 和 常数 方差 

最 后 的 模型 验证 步骤 是 检验 在 方程 8.15 中 和 残 差 的 正 态 性 假设 。 图 8.19 所 示 为 一 个 均值 近似 
为 0、 方差 为 常数 的 残 差 。 图 8.20 中 的 直方 图 和 图 8.21 中 的 Q-Q 图 支持 了 “误差 项 是 正 态 分 布 ” 
的 假设 。Q-Q 图 已 在 第 6 章 中 进行 了 阐述 。 


plot(arima 2$residuals, ylab = "Residuals") 
abline(a=0, b=0) 









































































































































hist (arima_2$residuals, xlab="Residuals", xlim-c(-20,20)) 


qqnorm(arima_2$residuals, main="") 
qqline (arima_2$residuals) 
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图 8.19 来 自 拟 合 (01,1) x (1,0,0) o 模型 的 残 差 图 
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图 8.20 来自 拟 合 ( 0,1,1 ) x ( 1,0,0 ) o 模型 的 残 差 直方 图 











8.2 ARIMA 模型 





样本 分 位 数 
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理论 分 位 数 
8.21 来 自 拟 合 的 (0,1,1)(1,0,0 ) 12 模型 的 残 差 Q-Q 图 





网 





















































如 果 正 态 性 或 者 常数 方差 的 假设 不 显示 为 真 ， 那 么 有 必要 在 拟 合 ARIMA 模型 前 转换 时 间 
序列 。 一 种 常见 的 转换 就 是 应 用 一 个 对 数 函 数 。 













































































3. 预测 
下 一 步 是 使 用 拟 合 的 (0,1,1) x (10,0) 模型 来 预测 未 来 12 个 月 的 汽油 产量 。 在 R 中 ， 利 用 
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predictO0 国 数 很 容易 获得 预测 结果 ,并且 拟 合 模型 也 已 经 存储 在 变量 arima_2 中 。 在 可 信 度 为 953% 
时 ， 预 测 值 与 相关 的 上 下 边界 将 显示 在 R 中 ， 其 图 形 如 图 8.22 所 示 。 


















































#predict the next 12 months 
arima 2.predict «- predict (arima 2,n.ahead-12) 





matrix(c(arima 2.predict$pred-1.96*arima 2.predict$se, 
arima 2.predict$pred, 
arima 2.predict$pred-41.96*arima 2.predict$se), 12,3, 
dimnames-list( c(241:252) ,c("LB","Pred","UB")) ) 


LB Pred UB 
241 394.9689 404.8167 4.6645 
242 378.6142 388.8773 399.1404 
243 394.9943 405.6566 6.3189 
244 405.0188 416.0658 427.1128 
245 397.9545 409.3733 420.7922 





KK DD DB GS aS aS Wo 
«o 


246 396.1202 407.8991 - 6780 
247 396.6028 408.7311 420.8594 
248 387.5241 399.9920 2.4598 
249 387.1523 399.9507 2.7492 
250 387.8486 400.9693 4.0900 
251 383.1724 396.6076 0.0428 





252 390.2075 403.9500 417.6926 
plot (gas prod, xlim=c (145,252), 
xlab = "Time (months)", 
ylab = "Gasoline production (millions of barrels)", 
ylim=c (360, 440) ) 
lines (arima_2.predict$pred) 
lines (arima_2.predict$pred+1.96*arima_2.predict$se, col=4, lty-2) 
lines (arima_2.predict$pred-1.96*arima_2.predict$se, col-4, lty-2) 
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图 8.22 ”真实 和 预测 的 汽油 产量 

















8.2.6 ”选择 理由 及 注意 事项 


ARIMA 建 模 的 一 项 优势 是 ， 它 可 以 仅仅 基于 历史 时 间 序 列 数据 来 分 析 感 兴趣 的 变量 。 在 第 
章 中 讲 到 ， 针 对 结果 变量 ， 需 要 考虑 并 评估 回归 模型 中 要 包含 的 输入 变量 。 因 为 ARIMA 建 模 通 
会 忽略 任何 额外 的 输入 变量 ， 因 此 简化 了 预测 过 程 。 如 果 使 用 回归 分 析 对 汽油 产量 进行 建 模 ， 诸 
到 民生 产 总 值 ( GDP )、 原 油价 格 以 及 失业 率 等 输入 变量 可 能 都 是 有 用 的 输入 变量 。 然 而 ,使 用 
归 模 型 预测 汽油 产量 需要 用 到 国民 生产 总 值 (GDP )、 原 油价 格 和 失业 率 等 输入 变量 的 预测 值 。 
最 小 的 数据 要 求 也 给 ARIMA 模型 带 来 了 缺点 : 模型 无 法 指明 哪些 潜在 变量 对 结果 产生 ] 
影响 。 例 如 ,如果 使 用 ARIMA 建 模 来 预测 未 来 的 零售 销售 ， 拟 合 后 的 ARIMA 模型 无 法 指明 需 
要 做 些 什么 才能 增加 销售 。 换 名 话说 ， 无 法 从 拟 合 的 ARIMA 模型 中 获得 因果 推论 。 

在 使 用 时 间 序 列 分 析 时 ， 需 要 和 警 惕 严重 冲击 对 系统 的 影响 。 在 汽油 产量 示例 中 ， 冲 击 可 能 
包括 炼油 三 火灾 、 国 际 事件 或 者 天 气相 关 的 影响 C 比如 飓风 )。 此 类 事件 可 能 导致 短期 的 产量 下 
降 ， 然 后 是 通过 提高 产量 来 弥补 减少 的 产量 ， 或 者 简单 地 提高 价格 。 
沿 着 类 似 的 推理 ， 时 间 序 列 分 析 只 能 在 短期 预测 中 使 用 。 随 着 时 间 推 移 ， 汽 油 产 量 可 能 会 
受到 消费 需求 转变 带 来 的 影响 ， 比 如 省 油 的 汽车 、 电 动车 越 来 越 多 或 者 是 出 现 了 天 然 气 汽车 。 
除了 上 述 冲击 之 外 ， 变 化 的 市 场 动态 也 会 让 长 期 的 预测 ( 未 来 几 年 ) 变 得 有 问题 。 






































IU 



























































































































































I EP Jb a 


































































































































































































































































































































































































































































































































































































































































































































































































IH 




















































































































































































































8.3 其 他 方法 


[他 时 间 序 列 方法 如 下 所 示 。 
@ 包含 外 源 输入 的 自 回 归 移动 平均 (Autoregressive Moving Average with Exogenous input， 

ARMAX) 用 来 分 析 依赖 于 其 他 时 间 序 列 的 时 间 序 列 。 例 如 ， 零 售 产品 的 需求 能 基于 以 
往 需求 外 加 天 气相 关 的 时 间 序列 (比如 温度 或 者 降雨 ) 来 进行 建 模 。 
e 频谱 分 析 ( Spectral Analysis ) 通常 用 于 信号 处 理 和 其 他 工程 应 用 。 语 音 识 别 软件 使 
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种 技术 将 语音 信号 从 可 能 包含 一 些 噪声 的 整体 信号 中 区 分 开 。 
e 广义 自 回归 条 件 异 方差 (Generalized Autoregressive Conditionally Heteroscedastic , 

GARCH ) 是 一 个 有 用 的 模型 ， 可 以 处 理 具 有 非 恒 定 方差 或 波动 的 时 间 序 列 。GARCH 可 

以 用 于 股票 市 场 行为 和 价格 波动 的 建 模 。 
e LEN (Kalman filtering ) 用 来 分 析 一 个 系统 的 实时 输入 ， 而 且 该 系统 能 够 存在 于 特 
定 的 状态 。 通 常情 况 下 ， 存 在 一 个 底层 模型 来 反映 系统 的 组 件 如 何 交 互 和 互相 影响 。 卡 尔 

曼 滤波 处 理 大 量 的 输入 ， 试 图 识别 输入 中 的 误差 .然后 预测 当前 的 状态 。 例 如 ， 车 辆 导航 

系统 中 的 卡尔 曼 滤波 能 够 处 理 大 量变 量 ， 比 如 速度 和 和 方向， 然后 更 新 对 当前 位 置 的 估计 。 
e 多 元 时 间 序 列 分 析 (Multivariate time series analysis ) 研究 多 个 时 间 序 列 和 它们 之 间 的 互 
相 影 响 。 向 量 ARIMA (VARMA ) 通过 在 特定 时 间 t 上 考虑 一 个 包含 多 个 时 间 序 列 的 
向 量 , 对 ARIMA 进行 了 扩展 。 如果 市 场 分 析 需 要 研究 与 公司 价格 和 销量 有 关 的 时 间 序 
列 ， 以 及 与 竞争 对 手 有 关 的 时 间 序 列 ， 此 时 可 以 使 用 VARIMA。 
































































































































































































































































































































































































































































































































































































































8.4 总 结 


AKA fH ARIMA 模型 的 时 间 序 列 分 析 。 时 间 序 列 分 析 与 其 他 的 统计 技术 不 同 ， 
假设 观测 数据 之 间 是 相互 间 独 立 的 。 时 间 序 列 分 析 则 隐 式 解决 了 这 样 的 
情况 ， 即 任何 特定 的 观测 在 某 种 程度 上 依赖 于 先前 的 观测 。 
过 使 用 差分 法 ，ARIMA 模型 可 以 将 非 平 稳 序列 转换 成 稳定 序列 ,然后 供 季 节 效 应 和 非 季 
的 ARMA 模型 使 用 。 在 确定 考虑 拟 合 的 ARIMA 模型 时 ， 还 讲解 了 使 用 ACF 和 PACF 
到 来 评估 自 相 关 的 重要 性 。Akaike 和 Bayesian 信息 准则 可 以 用 来 比较 拟 合 的 ARIMA 模型 。 一 
旦 确定 合适 的 模型 ， 就 可 以 预测 时 间 序 列 中 的 未 来 值 。 
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8.5 练习 
1. 在 检验 平稳 时 间 序 列 时 ， 为 什么 使 用 自 相 关 (autocorrelation ) 而 非 自 协 方差 


( autocovariance ) ? 
2. 提供 这 样 一 个 例子 ， 即 如 果 covCX, Y) = 0， 两 个 随机 变量 XI Y 并 不 一 定 是 独立 的 。 

3. 在 下 列 R 数据 集 上 拟 合 一 个 合适 的 ARIMA 模型 。 说 明 选 择 拟 合 模型 的 理由 ， 并 预测 将 

来 的 12 个 时 间 区 间 的 时 间 序 列 。 

a. faithful: 黄石 公园 中 老 忠 实 间歇 朱 喷 发 的 等 待 时 间 (分 钟 ) 

b. JohnsonJohnson: J&J 公司 的 季度 股票 分 红 。 

c. sunspot.month: 从 1974 年 到 1997 年 的 每 月 太阳 黑子 活动 。 

4. 什么 时 候 应 该 考虑 一 个 ARIMA(p,d,q) 模 型 ( 其 中 d > 0), ifi 
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考虑 ARMA(p,q) 模 型 ? 
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高 级 分 析 理 论 与 方法 : 
文本 分 析 


关键 概念 

词语 
语料库 
文本 规范 化 
Weel 
主题 建 模 
情感 分 析 


9.1 文本 分 析 步 又 






























































文本 分 析 是 指 通过 对 文本 数据 进行 表示 、 处 理 和 建 模 来 获得 有 用 的 见解 。 文 本 分 析 的 一 个 
要 组 成 部 分 是 文本 挖掘 ， 即 在 大 量 的 文本 集合 中 发 现 关 系 和 有 BEAN 过 程 。 

文本 分 析 的 一 个 挑战 是 高 维度 。 以 广 受 欢迎 的 儿童 书籍 Green Eggs and Ham[1] 为 例 。 作 
% Theodor Geisel( Dr. Seuss ) 曾 挑战 只 用 50 个 不 同 的 单词 写 一 本 完整 的 图 书 。 他 写作 J Green 
Eggs and Ham 这 本 书 ， 其 中 共 包 含 804 个 单词 ， 但 是 只 用 了 50 个 不 同 的 单词 。 这 50 个 单词 
如 下 所 示 。 


a, am, and, anywhere, are, be, boat, box, car, could, dark, do, eat, eggs, fox, goat, good, green, 





















































| 四 
f ni 




































































































































































































































































ham, here, house, I, if, in, let, like, may, me, mouse, not, on, or, rain, Sam, say, see, so, thank, that, the, 


them, there, they, train, tree, try, will, with, would, you 


这 本 书 里 有 大 量 的 重复 单词 。 然 而 ， 针 对 书 中 每 个 不 同 的 单词 ， 将 其 建 模 为 一 个 计数 或 特 
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征 的 向 量 ， 结 果 就 是 一 个 50 维度 的 问题 。 

Green Eggs and Ham 是 一 本 简单 的 书 。 文 本 分 析 往往 涉及 更 加 复杂 的 文本 数据 。 一 个 语 料 
JÆ (corpus， 复 数 为 corpora) 是 大 量 文本 的 集合 ， 在 自然 语言 处 理 (NLP) 中 用 于 各 种 不 同 的 
目的 。 表 9.1 列 出 了 NLP 研究 中 常用 的 几 个 语料库 示例 。 














表 9.1 自然 语言 处 理 中 的 语料库 示例 








































































































































































































































































































语料库 单词 数量 领域 网 站 
Shakespeare 88 万 写作 http://shakespeare.mit.edu/ 
Brown Corpus 100 万 写作 http://icame.uib.no/brown/bcm.html 
Penn Treebank 100 万 新 闻 通 讯 http://www.cis.upenn.edu/“treebank/ 
Switchboard Ph 、 
iav E PR 300 万 id http://catalog.ldc.upenn.edu/LDC97S62 
Conversations 
British National 、 
的 1 亿 写作 和 口语 http://www.natcorp.ox.ac.uk/ 
Corpus 
NA News Corpus 3.514 新 闻 通 讯 http://catalog.ldc.upenn.edu/LDC95T21 
European Parliament 
Proceedings Parallel 6 亿 法 律 http://www.statmt.org/europarl/ 
Corpus 
Google N-G 
PORE oT 1 万 亿 写作 http://catalog.ldc.upenn.edu/LDC2006T 13 
Corpus 
& 9.1 中 最 小 的 语料库 一 一 Shakespear ( 水 士 比 亚 ) 全 集 ， 包 含 约 88 万 个 单词 。 相 比 之 下 ， 
Google N-Grams 语料库 包含 了 来 自 于 可 公开 访问 网 页 的 1 万 亿 个 单词 。 在 Google N-Grams 语 料 
库 的 1 万 亿 个 单词 中 ， 可 能 有 100 万 个 不 同 的 单词 ， 对 应 于 100 万 个 维度 。 文 本 的 高 维度 是 一 
个 重要 的 问题 ， 因 为 它 会 直接 影响 到 很 多 文本 分 析 任 务 的 复杂 度 。 










































































文本 分 析 的 另 一 个 主要 挑战 是 ， 大 多 数 情况 上 下， 文字 不 是 结构 化 的 。 第 1 TOT, XX 
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可 能 包括 准 结构 化 、 半 结构 化 或 非 结构 化 的 数据 。 表 9.2 所 示 为 文本 分 析 可 能 需要 处 理 的 一 些 
数据 源 和 数据 格式 示例 。 表 9.2 并 不 是 要 给 出 详尽 的 列表 ， 而 是 为 了 强调 文本 分 析 中 的 挑战 。 



















































































表 9.2 ”用 于 文本 分 析 的 数据 源 和 数据 格式 示例 



















































































数据 源 数据 格式 数据 结构 类 型 
新 闻 文 章 TXT. HTML 或 扫描 的 PDF 非 结构 化 
文学 作品 TXT、DOC、HTML 或 PDF 非 结 构 化 
LF mB EE TXT. MSG 或 EML 非 结 构 化 
网 页 HTML 半 结 构 化 
服务 器 日 志 LOG 或 TXT 半 结 构 化 或 准 结构 化 
社交 网 络 接 XML、JSON 或 RSS 半 结 构 化 
呼叫 中 心 记 录 TXT 非 结 构 化 














9.1 文本 分 析 步 又 






































在 进行 文本 分 析 时 ， 通 党 包括 三 个 重要 步 又: 句法 分 析 、 搜 索 和 检索 、 文 本 挖掘。 请 注意 
文本 分 析 可 能 还 包括 不 属于 本 书 范围 的 其 他 子 任务 ( 如 话语 [discourse] 和 分 词 [segmentation] )。 
句法 分 析 ( parsing ) 是 指 处 理 非 结构 化 文本 使 其 具有 一 定 结构 ， 供 将 来 分 析 的 过 程 。 非 结 
构 化 文本 可 以 是 一 个 文本 文件 、 一 个 网 络 日 志 、 一 个 可 扩展 标记 语言 (XML ) 文件 、 一 个 超 文 
本 标记 语言 (HTML) 文件 , 或 者 一 个 Word 文档 。 句 法 分 析 将 文本 进行 解构 ， 然 后 以 一 种 更 为 
结构 化 的 方式 来 呈现 它 ， 以 供 后 续 步 又 使 用 。 

搜索 和 检索 (search and retrieval ) 在 一 个 语料库 中 识别 包含 例如 特殊 单词 、 短 语 、 主 题 或 
实体 (如 人 或 组 织 ) 等 搜索 项 的 文档 。 这 些 搜索 项 通常 称 为 关键 术语 (key term )。 搜 索 和 检索 
源 于 图 书馆 学 领域 ， 现 在 广泛 应 用 于 网 络 搜索 引擎 。 
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文本 挖掘 (text mining ) 使 用 前 两 步 产 生 的 术语 和 索引 来 发 现 与 感 兴趣 领域 或 问题 相关 的 有 
意义 的 见解 。 借 助 于 适当 的 文本 表示 ， 在 前 面 音节 中 提 到 的 很 多 技术 ， 如 聚 类 和 分 类 ， 就 可 以 
应 用 于 文本 挖掘 。 例 如 ， 第 4 BETAS k 均值 ， 可 以 被 修改 用 来 将 文本 文件 聚 类 为 分 组 ， 其 中 每 
个 分 组 代表 一 组 具有 类 似 主 题 的 文档 集合 [2]。 文 档 到 质心 的 距离 表示 文档 和 分 组 主题 之 间 有 多 
相关 。 侈 如 情感 分 析 和 垃圾 邮件 过 滤 这 样 的 分 类 任务 是 朴素 贝 叶 斯 分 类 咒 的 著名 用 例 〈 见 第 7 



















































































uu 
FE )。 文 本 挖掘 可 以 利用 来 自 各 个 研究 领域 的 方法 和 技术 ， 如 统计 分 析 、 信 息 检索 、 数 据 控 气 、 

































































































































































paras 

等 
注意 在 现实 中 ， 文 本 分 析 项 目 不 一 定 包 含 所 有 这 三 个 步 又。 如 果 我 们 的 目标 是 建立 一 个 语 
A 个 目录 服务 ， 那 么 重点 将 是 使 用 POS ( part-of-speech ) 词性 标注 、 命 名 实体 识别 、 
词 形 还 原 或 词 干 提取 等 文本 预 处 理 技术 的 一 种 或 多 种 来 进行 句法 分 析 。 此 外 ， 这 三 个 步 又 也 
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9.2 一 个 文本 分 析 的 示例 
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定 是 顺序 进行 的 。 有 时 它们 的 次 序 看 起 来 甚至 可 能 像 一 棵 树 。 例 如 ， 入 们 可 以 使 用 句法 
分 析 来 建立 数据 存储 ， 然 后 搜索 和 检索 相关 文档 ,或 者 在 整个 数据 存储 上 使 用 文本 挖掘 来 获 
得 见解 。 





























































































































TAME (POS) 标注 、 词 形 还 原 和 词 干 提取 
词性 标注 (POS tagging) 的 目标 是 建立 一 个 模型 ， 其 输入 是 一 个 句子 ， 例 如 : 


He saw a fox 











































































































输出 是 一 个 标注 序列 。 根 据 Penn Treebank POS 标注 [3] ,每 个 标注 为 相应 的 生 



































PA brio POS, 
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G 竺 到 代词 (个人)、 动 词 (过 去 式 )、 限 定 词 和 名 词 (单数 )。 

光 还 原 和 词 干 提取 技术 都 用 于 降低 维 数 和 减少 (单词 ) 基础 形式 的 变异 或 变 体形 式 ， 从 

而 更 准确 地 测量 每 个 单词 的 出 现 次 数 。 
通过 使 用 £u, 词 形 还 原 (lemmatization ) 可 以 找到 一 个 身 

例如 ， 对 于 给 定 让 HF: 
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有 词 的 正确 的 字典 基础 形式 。 






































obesity causes many problems 


词 形 还 原 的 输 
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obesity cause many problem 
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j 形 还 原 ， 词 干 提取 (stemming) 不 需要 字典 ， 它 通常 大 概 是 指 基 于 一 组 启发 式 

规则 来 剥离 词缀 ， 以 达到 减少 单词 的 变异 或 变 体 形式 的 目标 。 在 这 个 过 程 之 后 ， 单 词 被 提取 

行 成 词 干 。 词 干 不 一 定 是 在 自然 语言 定义 中 的 一 个 实际 单词 ， 但 它 足 以 将 自己 和 其 他 单词 的 

词 干 区 别 开 来 。 一 个 车 名 的 基于 规则 的 词 干 提取 算法 就 是 波 特 词 干 提取 算法 (Poter’s stemming 

algorithm )。 它 定义 了 一 组 生产 规则 来 迭代 地 将 单词 变换 为 其 词 干 。 对 于 之 前 那 句 话 : 
obesity causes many problems 


疲 特 词 干 提取 算法 的 输出 是 : 


obes caus mani problem 


9.2 一 个 文本 分 析 的 示例 


为 了 更 进一步 描述 文本 分 析 的 三 个 步骤 ， 我 们 来 考虑 一 个 虚构 的 公司 ACME， 它 生产 两 种 
产品 : bPhone 和 bEbook。ACME 与 生产 和 销售 类 似 产 品 的 其 他 公司 有 着 强烈 的 竞争 关系 。 为 
了 竞争 的 成 功 ，ACME 需要 生产 优秀 的 电话 和 电子 书 阅读 器 并 增加 销 

种 方法 是 公司 在 社交 媒体 上 监听 有 关 ACME 产品 的 言论 。 换 句 话说， 它们 产品 得 到 的 > 
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注 是 什么 ? ACME 希望 搜索 社交 媒体 站 点 内 所 有 的 有 关 ACME 产品 的 言论 ， 例 如 Twitter 和 
Facebook 和 一 些 流 行 的 评论 站 点 ,比如 Amazon 和 ConsumerReports。 它 希望 能 够 回答 以 下 这 些 
问题 。 

e ”人 们 有 没有 在 提 到 ACME 的 产品 ? 

e 说 了 什么 ?产品 是 好 是 坏 ? 如 果 人 们 觉得 ACME 产品 不 好 ， 为 什么 ? 比如 ， 他 们 是 不 
是 抱怨 bPhone 的 电池 续航 不 够 ,或 抱怨 bEbook 的 反应 速度 太 慢 。 
于 9.1 节 中 介绍 的 三 个 步骤 ，ACME 可 以 利用 一 个 的 简单 流程 监 折 社交 媒体 中 的 关注 效 
应 。 这 个 流程 如 图 9.1 所 示 ， 下 文 解释 了 该 流程 图 中 包含 的 模块 。 



































































































































































































































































































3. TFIDF 


4. 主题 建 模 


gaoa- 6. 获得 见解 





图 9.1 ACME 的 文本 分 析 流 程 





























1. 收集 原始 文本 (9.3 8 0s 这 对 应 于 数据 分 析 生 命 周 期 的 第 1 阶段 和 第 2 阶段 。 在 这 一 步 
rH, ACME 的 数据 科学 团队 监视 网 站 , 以 了 解 特 定 产 品 相关 的 信息 。 这些 网 站 可 能 包括 
社交 媒体 和 评论 站 点 。 团队 可 以 与 社交 媒体 的 API 进行 交互 来 处 理 数据 源 , BERA 
并 且 使 用 产品 名 字 作为 关键 字 来 获取 原始 数据 。 在 这 个 过 程 中 , 通常 使 用 正则 表达 式 来 
识别 匹配 特定 模式 的 文本 。 可 以 在 原始 数据 上 应 用 额外 的 过 滤器 来 进行 更 细致 的 研究 。 


例如 ， 只 获取 来 自 纽约 而 不 是 整个 美国 的 评论 可 以 让 ACME 对 产品 进行 区 域 研究 。 通 



























































































































































































































































































































































































































































常 来 说 , 在 数据 收集 阶段 应 用 过 滤器 是 一 个 好 的 做 法 。 它 们 可 以 减低 VO 工作 负载 和 最 
小 化 存储 需求 。 
2. 表示 文本 ( 9.4 市 )。 将 每 个 评论 转换 为 包含 合适 索引 的 文档 表述 ,然后 基于 被 索引 的 评 
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a 
论 建立 语料库 。 这 个 步骤 对 应 于 数据 分 析 生 命 周 期 的 第 2 和 第 3 阶段 。 
3. 使 用 诸如 TFIDF 的 方法 (9.5 市 ) 来 计算 评论 中 每 个 词 的 作用 。 这 一 步 以 及 接 下 来 的 两 
步 对 应 于 数据 分 析 生 命 周 期 中 的 第 3 到 第 5 阶段 。 
4. 根据 主题 对 文档 分 类 ( 9.6 市 ), 这 可 以 通过 主题 模型 来 实现 ( 比如 latent Dirichlet allocation )。 
5. 确定 评论 的 情感 倾向 (9.77) 确定 评论 是 正面 还 是 负面 的 。 许 多 产品 评论 站 点 的 每 个 
评论 都 提供 了 对 产品 的 评分 。 如 果 这 类 信息 不 可 用 , 那么 可 以 对 文本 数据 使 用 情感 分 析 
这 样 的 技术 来 推断 内 在 的 情绪 。 人 们 可 以 表达 许多 种 情感 。 为 了 保证 过 程 的 简单 性 ， 
ACME 将 情绪 分 为 正面 、 中 性 、 负 面 。 




















































































































































































































































































































































































































































































































9.3 ”收集 原始 数据 















































6. 审查 结果 然后 获得 更 好 的 见解 (9.8 节 )。 这 一 步 对 应 于 数据 分 析 生 命 周 期 中 的 第 5 阶 



























































































































































































































































段 和 第 6 阶段 。 市 场 部 门 从 之 前 的 步骤 中 收集 结果 ， 找 出 是 什么 让 人 们 喜欢 或 者 讨厌 
产品 ， 使 用 一 种 或 多 种 可 视 化 技术 来 报告 调查 结果 ， 并 测试 结论 的 合理 性 并 实施 结果 
( 如 有 果 适 用 )。 

这 个 流程 汇总 了 本 章 后 续 小 节 的 主题 ， 并 指出 了 文本 分 析 中 一 些 独 有 的 难点 。 































































































9.3 ”收集 原始 数据 

在 第 2 章 中 讲解 数据 分 析 生 命 周期 时 ， 我 们 知道 第 1 阶段 是 发 现 数据 。 这 个 阶段 中 ， 数 据 

科学 团队 调查 问题 ， 理 解 必要 的 数据 产 ， 并 形成 初步 的 假设 。 相 应 地 ， 对 于 文本 分 析 ， 进 行 任 
事情 前 必须 先 收集 数据 。 数 据 科 学 团队 在 许多 网 站 上 对 用 户 生 成 的 内 容 开 始 积 极 的 监控 。 这 
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类 被 收集 的 用 户 生成 的 内 容 可 以 是 新 闻 门 户 和 博客 上 相关 的 文章 、 在 线 商 店 或 评论 网 站 上 的 
ACME 产品 评论 ， 也 可 以 是 社交 媒体 上 包含 bPhone 或 者 bEbook 关键 词 的 帖子 。 无 论 数 据 是 从 
那里 来 ， 团 队 很 有 可 能 处 理 的 是 半 结 构 化 数据 ,如 HTML 网 页 、 聚 合 内 容 (RSS ) 源 、XML 或 
% ISON 文件 。 需 要 为 数据 形成 足够 的 结构 来 找到 团队 真正 关心 的 原始 文本 。 在 品牌 管理 的 示 
例 中 ，ACME 感 兴趣 的 是 ， 与 bPhone 或 bEbook 有 关 的 评论 以 及 评论 发 表 时 间 。 因 此 ， 团 队 会 
积极 收集 此 类 信息 。 
许多 网 站 和 服务 为 第 三 方 开发 人 员 提供 了 公开 的 API, 5] 来 访问 它们 的 数据 。 比 如 , Twitter 
API[6] 人 允许 开发 人 员 选 择 Streaming API 或 者 REST API 来 获取 Twitter 上 包含 关键 字 bPhone 或 
bEbook 的 公开 Tweet。 开 发 人 员 也 可 以 实时 读 取 特定 用 户 的 tweet 或 特定 地 点 附近 的 tweet。 抓 
取 的 tweet x JSON 格式 。 
举 个 例子 ， 使 用 Twitter Streaming API 1.1 版 本 抓 取 的 包含 关键 字 bPhone 的 tweet 示例 如 下 
所 示 。 





































































































































































































































































































































































































































































































01 ( 
02 "created at": "Thu Aug 15 20:06:48 +0000 2013", 
03 "coordinates": { 
04 "type": "Point", 
05 "coordinates": [ 
06 -157.81538521787621, 
07 21.3002578885766 
08 ] 
09 T, 

0 "favorite count": 0, 

"id": 368101488276824010, 

2 "id str": "368101488276824014", 
3 "lang": "en", 

4 "metadata": { 

15 "iso language code": "en", 

6 "result type": "recent" 

7 ), 

8 "retweet_count": 0, 
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19 "retweeted": false, 

20 "source": "<a href=\"http://www.twitter.com\" 

21 rel=\"nofollow\">Twitter for bPhone</a>", 
22 "text": "I once had a gf back in the day. Then the bPhone 
23 came out lol", 

24 "truncated": false, 

25 "user": { 

26 "contributors enabled": false, 

27 "created at": ,Mon Jun 24 09:15:54 +0000 2013", 
28 "default profile": false, 

29 "default profile image": false, 

30 "description": "Love Life and Live Good", 

31 "favourites count": 23, 

32 "follow request sent": false, 

33 "followers count": 96, 

34 "following": false, 

35 "friends count": 347, 

36 "geo enabled": false, 

37 "id": 2542887414, 

38 "id str": "2542887414", 

39 "is translator": false, 

40 "lang": "en-gb", 

41 "listed count": 0; 

42 "location": "Beautiful Hawaii", 

43 "name": "The Original DJ Ice", 

44 "notifications": false, 

45 "profile background color": "CODEED", 

46 "profile background image url": 

47 "http://a0.twimg.com/profile bg_imgs/378800000/b12e56725ee. jpeg", 
48 "profile background tile": true, 

49 "profile image url": 

50 "http://a0.twimg.com/profile imgs/378800010/2d55a4388bcffd5.jpeg", 
Sd "profile link color": "0084B4", 

52 "profile sidebar border color": "FFFFFF", 

53 "profile sidebar fill color": "DDEEF6", 

54 "profile text color": "333333", 

55 "profile use background image": true, 

56 "protected": false, 

57 "Screen name": "DJ Ice", 

58 "statuses count": 186, 

59 "time zone": "Hawaii", 

60 "urit" null, 

61 "utc offset": -36000, 

62 "verified": false 

63 

64 } 









































在 上 面 这 个 tweet 中 , 第 2 行 的 created_at 和 第 22 行 的 text 字段 提供 的 信息 引起 了 ACME 的 
兴趣 。created_at 条 目 存 储 了 tweet RAAI RER, text 字段 存储 了 tweet 的 主要 内 容 。 其 他 字段 也 
EH HAS. Een, 使 用 coordinates ( 第 3 到 第 9 行 ) 用 户 本 地 语言 (lang, 第 40 £T). HAP location 
(第 42 行 )、time_zone( 第 59 行 ) PI utc_offset (第 61 47) 字段 ， 可 以 使 分 析 着 重 于 特定 区 域 的 






























































































































































9.3 ”收集 原始 数据 









































M 





tweet。 因 此 ， 团 队 可 以 从 更 细 粒 度 地 来 研究 人 们 关于 ACME 产品 的 言论 。 
1 新 闻 门 PURE AS ay 5 点 都 能 提供 具有 FIM 3, ERS map 3 比如 RSS 或 E XML, 例 
如 ， 一 个 电话 评论 博客 的 RSS 源 如 下 所 示 。 


01 «channel» 



























































































































































02 <title>All about Phones</title> 

03 <description>My Phone Review Site</description> 

04 <link>http://www.phones.com/link.htm</link> 

05 

06 <item> 

07 <title>bPhone: The best!</title> 

08 <description>I love LOVE my bPhone!</description> 
09 <link>http://www.phones.com/link.htm</link> 

10 <guid isPermaLink="false">1102345</guid> 

1 <pubDate>Tue, 29 Aug 2011 09:00:00 -0400</pubDate> 
12 <item> 


13 </channel> 






































[rH title ( £8 7 £T), description (第 8 行 ) 和 发 布 日 期 (pubDate, 28 11 £T) 中 的 内 容 都 大 
ACME 感 兴 趣 的 。 
如 果 计 划 从 在 线 商店 和 评论 站 点 上 收集 与 ACME 产品 相关 的 用 户 评论 , 但 是 在 线 商店 和 评 
论 站 点 不 提供 API 或 数据 源 , 团队 可 能 不 得 不 编写 网 页 仆 虫 来 解析 网 页 ， 然后 从 这 些 HTML XC 
件 中 自动 提取 感 兴趣 的 数据 。 网 页 假 虫 (web scraper ) 是 一 个 软件 程序 (bot )， 它 能 系统 地 浏览 
WWW 、 下 载 网 页 、 提 取 有 用 的 信息 然后 存储 在 某 个 地 方 供 将 来 研究 。 
不 幸 的 是 ， 写 一 个 通用 的 网 页 几乎 是 不 可 能 的 。 这 是 因为 像 在 线 商店 和 评论 网 站 这 样 
的 站 点 都 有 不 同 的 结构 。 通 常 需要 为 特定 的 网 站 定制 一 个 网 页 朴 虫 。 另 外 ， 网 站 的 格式 会 随 有 
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时 间 变 化 ， 这 需要 网 页 爬虫 时 党 更新。 为 了 构建 一 个 针对 特定 网 站 的 网 页 仆 虫 ， 在 提取 任何 有 
用 的 内 容 之 前 ， 必 须 研 究 网 页 的 HTML 源 代码 ， 以 寻找 模式 。 比 如 ,团队 可 能 发 现 HTML 中 的 
每 一 个 用 户 评论 都 使 用 ID usrcommt 封闭 在 一 个 DIV 元 素 中 , 而 且 该 DIV 位 于 另外 一 个 DIV | 
部 ， 或 者 用 户 评论 使 用 CLASS commtcls 封闭 在 DIV 元 素 中 。。 
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z 
AB RT ES ABU Ae RE PAL ULT HR, E d np. curl[7] 工 具 来 提取 已 给 定 的 特 
J HTML 源 代 码 , 使 用 XPath[8] 和 正则 表达 式 来 选择 和 提取 与 模式 匹配 的 数据 ,然后 将 它 
们 写 入 数据 存储 。 
E 则 表达 式 可 以 有 效 且 高 效 地 在 文本 中 找到 匹配 特定 模式 的 单词 和 字符 串 。 表 9.3 罗列 了 
一 些 正 则 表达 式 。 总 体 思 路 就 是 一 旦 从 感 兴 趣 的 字段 中 获得 了 文本 ， 正 则 表达 式 就 有 助 于 识别 
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文本 是 否 真 的 是 项 目 所 感 兴趣 的 。 在 本 例 中 ， 字 段 中 是 否 提 到 了 bPhone, bEbook 和 ACME? 
在 匹配 文本 时 ， 正 则 表达 式 还 能 够 考虑 大 小 写 、 常 见 的 拼写 错误 、 常 见 的 缩写 ， 以 及 电子 邮件 
地 址 的 特殊 格式 、 日 期 、 电 话 号 码 等 。 
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表 9.3 ”正则 表达 式 示例 






























































正则 表达 式 匹配 注释 

b(P|p)hone bPhone, bphone 管道 “|” 表 示 “or” 
bEbk, bEbok, bEbook, bEboook. 

bEbo*k i : ; : “x” TTL 和 一 个 字符 0 次 或 多 次 

9 bEbooook, bEboooook, ++ 以 匹配 前 一 个 字符 0 次 或 多 次 

bEbok, bEbook, bEboook 

bEbo+k ; : i “+2” 匹 配 前 一 个 字符 1 次 或 多 次 
bEbooook, bEboooook，… 配 前 “个 字符 1 次 或 多 次 

bEbo(2,4]k bEbook, bEboook, bEbooook “{2,4}” 匹 配 前 一 个 字符 “o”2 一 4 次 

AI love 以 “Ilove” 开 始 的 文本 “^” 匹 配 一 个 字符 串 的 开头 

ACME$ 以 “ACME” 结 束 的 文本 “$” 匹 配 一 个 字符 串 的 末尾 





















































本 节 讨 论 了 原始 数据 3 种 可 能 的 不 同 来 源 : 包含 关键 字 bPhone 或 者 bEbook 的 tweet、 新闻 
门户 或 博客 上 的 相关 文章 、 在 线 商 店 或 者 评论 网 站 上 ACME 产品 的 评论 。 

如 果 不 打算 从 头 开始 创建 一 个 数据 收集 器 ， 许 多 公司 ， 例 如 GNIP[9] 和 DataSift[10]， 可 以 
提供 数据 收集 或 数据 倒卖 服务 。 

取决 于 如 何 使 用 已 获取 的 原始 数据 ， 数 据 科学 家 团队 在 数据 收集 期 间 需 要 小 心 ， 不 要 侵犯 
信息 所 有 人 的 权利 和 与 网 站 相关 的 用 户 协 议 。 许 多 网 站 在 根 目 录 中 放 了 一 个 robots.txt 文件 一 一 
http://.../robots.txt ( 比如 ，http://www.amazon.com/robots.txt )。 它 列 出 允许 或 拒绝 访问 的 目录 和 文 
件 ， 证 网 页 朴 虫 知道 如 何 正 确 地 处 理 网 站 。 


































































































































































































































































































































































































9.4 RRMA 


在 先前 的 步 又 之 后 ， 现 在 团队 有 了 一 些 原 始 文本 。 在 数据 表示 阶段 ， 首 先 使 用 文本 规范 化 
技术 (比如 断 词 和 大 小 写 转换 [case folding] ) 对 原始 文本 进行 转化 ,并 用 更 加 结构 化 的 方法 来 表 
示 ， 以 供 分 析 。 
4j ii] (tokenization ) 是 从 文本 正文 中 分 离 (也 叫做 标记 ) 单词 。 原 始 文本 在 分 词 后 转换 为 
组 标记 〈token ) 的 集合 ， 每 个 标记 通常 是 一 个 词 。 
种 常见 的 方法 是 按 空格 来 分 词 。 比 如 ， 在 下 面 的 tweet | 
once had a gf back in the day. Then the bPhone came out lol 
基于 空格 分 词 后 会 输出 一 系列 标记 : 


; once, had, a, gf, back, in, the, day., 
Then, the, bPhone, came, out, lol} 


注意 “day” 标 记 包含 了 一 个 点 号 。 这 是 只 使 用 空格 作为 分 隔 符 的 结果 。 因 此 , 标记 “day.” 
和 “day” 在 后 续 的 分 析 中 会 被 认为 是 不 同 的 项 ， 除 非 提 供 一 个 附加 的 查找 表 。 不 使 用 查找 表 的 















































































































































































































































































































































































































































































































































9.4 ”表示 文本 







































































一 种 解决 方法 是 ， 如 果 点 号 位 于 句子 的 末尾 ， 则 将 其 删除 。 另 一 种 方法 是 使 用 标点 符号 和 空格 
进行 文本 分 词 。 在 这 种 情况 下 ， 之 前 的 tweet 会 成 为 : 

(I, once, had, a, gf, back, in, the, day, ., 

Then, the, bPhone, came, out, lol 

然而 ， 基 于 标点 符号 的 分 词 在 特定 情形 下 可 能 不 太 适 合 。 例 如 ， 如 果 文 本 包含 像 是 
we'll 这 样 的 缩写 ,基于 标点 的 分 词 会 把 它们 分 离 成 分 开 的 单词 we 和 i 对 于 can't 这 种 词 ， 
输出 会 变 成 can 和 t。 不 将 它们 分 词 或 者 把 well 标记 成 we AIL, 把 can’t 标记 成 can 和 't， 
会 更 加 合适 。 与 t 标记 相 比 ，’t 更 加 容易 被 识别 成 为 负面 的 。 如 果 财 队 在 处 理 特 定 任务 的 
时 候 ， 比 如 信息 提取 和 情感 分 析 ， 完 全 基于 标点 符号 和 空格 的 分 词 可 能 会 模糊 甚至 牌 曲 文 
本 的 





































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































分 词 是 一 个 比 我 们 想象 的 更 为 困难 的 任务 。 比 如 , & state-of-the-art, Wi-Fi 和 San Francisco 
这 种 词语 是 应 该 当做 一 个 还 是 多 个 标记 昵 ? ffi Résumé, résumé 和 resume 这 样 的 单词 是 否 应 该 
映射 到 同一 个 标记 呢 ? 分 词 其 至 比 英 语 本 身 更 难 。 在 德语 中 ， 有 许多 没有 分 上 段 的 复合 名 词 。 在 
中 文 里 ， 词 和 词 之 间 就 没有 空格 。 日 语 中 也 混合 进 了 几 个 字母 。 这 样 的 示例 不 胜 枚 举 。 

可 以 说 ， 没 有 一 个 分 词 器 可 以 适合 每 一 种 情形 。 团 队 需 要 根据 任务 的 领域 来 决定 什么 可 以 
算 作 一 个 标记 ， 并 选择 能 够 符合 大 多 数 情 况 的 合适 的 分 词 技 术 。 现 实 中 ， 通 常会 将 标准 分 词 技 
术 和 查找 表 来 匹配 使 用 ， 以 解决 那些 不 应 该 被 标记 的 缩写 和 项 。 有 时 候 ， 全 新 开发 一 个 自己 的 
分 词 方法 也 不 是 一 个 坏 主意 。 

另 一 个 文本 规范 化 技术 叫做 大 小 写 转换 (case folding )， 它 将 所 有 的 字母 都 变 成 小 写 (ake 
都 变 成 大 写 )。 对 于 先前 的 tweet， 在 大 小 写 转换 后 会 变 成 这 样 ， 





i once had a gf back in the day. then the bphone came out lol 
当 遇 到 比如 信息 提取 、 情 感 分 析 和 机 器 翻译 之 类 的 任务 时 ， 需 要 间 慎 应 用 大 小 写 转 换 。 如 
应 用 不 正确 ， 大 小 写 转换 会 削弱 或 者 改变 文本 的 意思 并 带 来 额外 的 噪声 。 比 如 ， 当 General 
Motors 变 成 general 和 motos, ， 后 续 分 析 可 能 会 把 它们 认 作 是 分 开 的 单词 而 不 是 公司 名 字 。 当 世 
界 健康 组 织 ( World Health Organization ) 的 缩写 WHO BK PREVA RBA. The Who 变 成 了 who 时 ， 
它们 都 可 能 被 解释 为 代词 who。 
如 果 必 须 使 用 大 小 写 转换 ， 减 少 这 种 问题 的 一 种 方法 是 对 不 进行 大 小 写 转换 的 单词 建立 
个 查找 表 。 或 者 ， 团 队 可 以 针对 大 小 写 转换 想 出 一 些 启发 式 或 基于 规则 的 策略 。 例 如 ， 程 序 能 
够 学 会 忽略 句子 中 间 的 大 写 单词 。 

FE 通过 分 词 和 大 小 写 转 换 规范 化 以 后 ， 需 要 以 更 加 结构 化 的 方式 来 表示 。 一 个 简单 量 
广泛 被 使 用 的 文本 表示 方法 叫做 词 袋 法 (bag-of-words )。 对 于 一 个 给 定 的 文档 ， 词 袋 法 把 文档 
时 忽略 顺序 、 上 下 文 、 推 论 和 语 篇 等 信息 。 每 个 单词 都 被 认为 是 一 个 项 或 标 
记 ( 通 第 是 分 析 中 最 小 的 单元 )。 在 许多 情况 下 ， 词 袋 法 额外 假设 文档 中 的 每 个 项 是 独立 的 。 文 
档 然 后 成 为 一 个 向 量 ， 每 个 不 同 的 项 在 空间 中 具有 一 个 维度 ， 而 且 项 也 是 未 排序 的 。 文 档 D 的 
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排列 D* 包 含 了 相同 的 单词 ， 他 们 出 现 的 次 数 相同 但 顺序 不 同 。 因 此 ， 使 用 词 袋 法 表示 ,文档 D 
及 其 排列 D* 会 共享 相同 的 表示 形式 。 
词 袋 法 相当 得 朴素 ， 因 为 顺序 在 文本 的 语义 中 扮演 了 重要 的 角色 。 通 过 词 袋 法 ， 许 多 不 同 
意思 的 文本 合并 成 为 一 种 形式 。 例 如 ,“dog bites a man” 和 “a man bites a dog” 的 意思 完全 不 
同 ， 但 是 在 词 袋 法 中 它们 是 后 表示 。 

尽管 词 袋 法 技术 过 分 简单 化 了 问题 ， 但 它 依旧 是 一 种 好 的 入 门 方法 ， 且 广泛 应 用 于 文本 分 
析 。Slaton 和 Buckly 发 表 的 论文 [11] 陈 述 了 使 用 单个 词 作为 标识 符 的 有 效 性 ， 并 与 使 用 多 个 词 
作为 标识 符 ( 且 保 留 了 单词 顺序 ) 进行 了 对 比 : 


在 回顾 过 去 25 年 期 间 在 检索 系统 评价 领域 中 积累 的 大 量 文献 时 , 有 压倒 性 的 证 据 
表明 , 在 将 从 文本 自身 提取 出 的 或 从 可 用 词汇 表 中 获得 的 更 为 复杂 的 条 目 进行 合并 时 ， 
使 用 单个 词 作为 标识 符 的 方法 更 为 可 取 。 


S4 Salton 和 Buckley 的 工作 是 于 1988 年 发 布 的 ， 但 是 几乎 没有 确切 证 据 来 反 驱 这 种 论 
点 。 词 袋 法 使 用 单个 词 作为 标识 符 〈 而 非 多 个 词 作为 标识 符 )， 对 于 本 文 分 析 来 说 这 足够 了 。 
iris RU SPA, 可 以 计算 每 个 单词 的 词 频 ( term frequency, TF ). 
词 频 表 示 文 档 中 每 个 单词 的 权重 ， 它 与 该 词 在 文档 中 出 现 的 次 数 成 正比 。 图 9.2 显示 了 水 士 比 
;的 《哈姆雷特 》 中 出 现 频率 最 高 的 50 个 单词 。 词 频 的 分 布 大 致 遵循 齐 普 夫 定 律 CZipf's Law ) 
[12,13]。 也 就 是 说 ,第 i 个 最 党 出 现 单词 的 词 频 大 约 为 总 体 最 常 出 现 单词 的 词 频 的 14。 换 句 话 
说 ， 单 词 的 频率 与 它 在 词 频 表 中 的 排名 成 反比 。 词 频 会 在 本 章 后 面 再 详细 介绍 。 
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WCTEMERZAN BATA? 

词 袋 法 是 一 种 入 门 的 技术 。 但 是 有 些 时 候 数据 科学 团队 倾向 于 使 用 其 他 更 先进 的 文本 表示 
方法 。 这 些 更 高 级 的 方法 考虑 到 词 库 、 上 下 文 、 推 论 和 语 篇 等 因素 。 例 如 ， 一 种 方法 可 以 跟踪 
每 个 文档 中 单词 的 顺序 然后 比较 它 与 规范 化 后 词 序 的 差异 [14]。 这 些 高 级 技术 不 在 本 书 讨论 的 
范围 。 

























































































































































































































































































除了 提取 词语 之 外 ， 可 能 还 需要 包含 它们 在 语法 上 的 形态 特征 (morphological feature )。 形 
态 特 征 指定 了 关于 词语 的 额外 信息 ， 可 能 包括 词根 、 词 级 、 词 性 标记 、 命 名 实体 或 语调 等 ( 语 
对 语调 的 变化 )。 这 一 步骤 所 获得 的 特征 会 用 于 后 续 的 分 类 或 情感 分 析 。 

需要 提取 和 存储 的 特征 高 度 依赖 于 所 执行 的 特定 任务 。 如 果 任 务 是 标记 (label) 和 辨别 语 
言 的 一 部 分 , 特征 需要 包括 文本 中 的 所 有 单词 以 及 相关 的 词性 标记 (tag )。 如果 任务 是 注释 类 似 
名 字 和 组 织 的 已 命名 实体 , 则 该 特征 需要 凸显 在 文本 中 出 现 的 这 些 信息 。 特 征 的 构建 rH 
它 通常 需要 完全 手动 进行 ， 有 时 还 需要 用 到 领域 专业 知识 。 
有 时 候 创建 特征 就 是 文本 分 析 任务 的 全 部 工作 。 一 类 示例 就 是 主题 建 模 (topic modeling ). 
主题 建 模 提供 了 一 种 快速 地 分 析 大 量 原始 文本 和 确定 潜在 主题 的 方法 。 主 题 建 模 可 能 不 要 求 标 
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9.4 ”表示 文本 




















id (label) 或 注释 文档 。 它 可 以 直接 从 原始 文本 的 分 析 中 发 现 主 题 。 主 题 包括 频繁 一 起 出 现 的 
共享 同一 题材 (theme) 的 一 组 单词 。 概 率 主 题 建 模 ( 在 9.6 节 详 细 讲解 ) 是 一 组 针对 解析 了 
量 文 档 归档 并 发 现 、 注 释 主题 的 算法 。 
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图 9.2 ”莎士比亚 的 《哈姆雷特 》 中 频率 最 高 的 50 个 单词 




































































重要 的 是 ， 不 仅 要 创建 文档 的 一 种 表示 ， 还 要 创建 一 个 语料库 的 表示 。 如 本 革 前 文 所 述 ， 
语料库 是 文档 的 集合 。 语 料 库 可 以 大 到 包括 一 种 或 多 种 语言 的 所 有 文档 ， 也 可 以 小 到 仅 限于 特 
定 领域 ， 诸 如 技术 、 医 疗 或 者 法 律 之 类 。 对 于 网 络 搜索 引擎 ， 整 个 万 维 网 是 它 的 相关 语料库 
不 过 绝 大 多 数 的 语料库 相对 小 一 些 。 布朗 语料库 [15] 是 一 个 百 万 单词 级 别 的 电子 语料库 , 由 
布衣 大 学 于 1961 年 所 创建 。 它 包括 了 大 约 500 个 文本 来 源 ， 而 且 这 些 来 源 已 经 被 分 类 成 了 15 
个 分 类 (genre )， 比 如 新 闻 、 期 刊 、 小 说 等 。 表 9.4 列 出 了 布衣 语料库 的 分 类 ， 作 为 在 语料库 中 
如 何 组 织 信息 的 示例 。 
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表 9.4 布朗 语料库 分 类 











分 类 来 源 编号 来 源 示例 

A. Reportage 44 Chicago Tribune 

B. Editorial 27 Christian Science Monitor 
C. Reviews 17 Life 
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分 类 来 源 编号 来 源 示例 

D. Religion 17 William Pollard: Physicist and Christian 

E. Skills and Hobbies 36 Joseph E. Choate: The American Boating Scene 
F. Popular Lore 48 David Boroff: Jewish Teen-Age Culture 





G. Belles Lettres, Biography,Memoirs, 75 


and so on Selma J. Cohen: Avant-Garde Choreography 





U. S. Dep't of Defense: Medicine in National 























H. Miscellaneous 30 Defense 

J. Learned 80 J. F. Vedder: Micrometeorites 

K. General Fiction 29 David Stacton: The Judges of the Secret Court 
Mystery and Detective Fiction 24 S. L. M. Barlow: Monologue of Murder 

M. Science Fiction 6 Jim Harmon: The Planet with No Nightmare 
N. Adventure and Western Fiction 29 Paul Brock: Toughest Lawman in the Old West 
P. Romance and Love Story 29 Morley Callaghan: A Passion in Rome 

R. Humor 9 Evan Esar: Humorous English 








很 多 语料库 关注 的 都 是 特定 的 领域 。 例 如 ，BioCreative 语料库 [16] 是 来 自 于 生物 学 ， 
Switchboard 语料库 [17] 包 含 了 电话 谈话 ， 以 及 European Parliament Proceedings Parallel 语料库 此 
从 欧洲 会 议 的 21 种 语言 的 记录 中 提取 的 。 

大 多 数 的 语料库 都 有 元 数据 ， 比 如 语料库 的 大 小 以 及 文本 提取 的 领域 。 某 些 语料库 ( 例如 
布朗 语料库 ) 包含 了 文本 中 出 现 的 每 个 词 的 信息 内 容 。 信 息 内 容 (information content, IC ) 是 
用 来 表示 语料库 中 词语 重要 性 的 度量 。 衡 量 IC 的 传统 方式 [19] 是 将 来 自 本 体 的 层次 结构 知识 与 
本 体 在 文本 (文本 源 于 语料库 ) 中 的 实际 利用 率 的 统计 结合 起 来 。IC 值 较 高 的 词语 的 重要 性 要 
比 IC 值 较 低 的 词语 高 。 例 如 , 词语 necklace 在 英语 的 语料库 中 通常 比 jewelry 拥有 更 高 的 IC 值 ， 
Wy jewelry 更 加 广义 且 比 necklace 更 经 常 出 现 。 研 究 表明 IC 可 以 帮助 衡量 词语 的 语意 相似 度 
[20]。 除 此 之 外 , 这 样 的 衡量 不 需要 一 个 已 标注 的 语料库 ,而且 通 常 与 人 们 的 判断 有 很 强 的 强 相 
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关 性 [20,21]。 

在 品牌 管理 的 示例 中 , 团队 已 经 收集 了 ACME 产品 的 评论 ， 然 后 用 之 前 介绍 的 技术 将 它们 
转换 成 了 适当 的 表示 。 下 一 步 ， 这 些 评论 和 表示 需要 存储 成 可 搜索 的 归档 ， 供 未 来 参考 和 研究 
使 用 。 这 种 归档 可 以 是 SQL 数据 库 、XML 或 者 JSON 文件 ， 或 者 一 个 或 多 个 目录 下 的 纯 文 文 
本 文件 。 

IC 这 样 的 语料库 统计 信息 有 助 于 识别 被 分 析 文 档 中 词汇 的 重要 性 。 然 而 ， 如 果 IC 值 包含 
























































在 作为 外 部 知识 库 的 传统 语料库 ( 比如 布朗 语料库 ) 的 元 数据 中 ， 则 无 法 用 来 分 析 网 页 中 动态 
变化 的 非 结 构 化 数据 。 问 题 是 两 方面 的 。 首 先 ， 传 统 语料库 和 IC 元 数据 不 会 随 着 时 间 而 改变 。 
任何 语料库 中 不 存在 的 词汇 和 任何 新 发 明 的 词汇 都 会 自动 得 到 为 零 的 IC 值 。 其 次 , 对 于 下 游 分 






















































































































































































9.5 词 频 - 逆 文 档 频率 (TFIDF ) 



































析 中 使 用 的 算法 ,语料库 代表 整个 知识 库 。 而 非 结 构 化 文本 的 本 质 决 定 了 被 分 析 的 数据 可 以 包 
含 任何 主题 ， 很 多 主题 可 能 在 给 定 的 知识 库 中 是 缺失 的 。 例 如 ， 如 果 任 务 是 研究 人 们 对 首 乐 家 


































































































































































































的 态度 ， he 50 年 前 构建 的 传统 语料库 不 会 知道 U2 是 一 个 乐队 ; 因此 ，U2 乐队 得 到 的 IC 
值 为 零 ， 这 意味 着 它 不 是 一 个 重要 词汇 。 一 个 更 好 的 方式 是 遍历 所 有 已 获得 的 文档 ， 然 后 发 现 























































































































它们 大 多 数 与 音乐 相关 ， U2 的 出 现 频 率 相当 高 ， 不 应 该 是 一 个 非 重 要 的 词 。 因 此 ， 有 必要 
提出 一 种 度量 ， 可 以 容易 地 适应 文本 的 上 下 文 及 其 性 质 ， 而 不 是 依靠 传统 语料库 。 下 一 节 中 我 
们 会 讨论 这 样 一 种 度量 。 它 称 为 词 频 - 道 文档 频率 ( Term Frequency-Inverse Document Frequency， 
TFIDF )， 基 于 已 获得 的 所 有 文档 ， 并 对 每 个 文档 中 出 现 的 词 的 重要 性 进行 记录 。 

注意 ,已 获得 的 文件 可 能 会 随 着 时 间 不 断 改变 。 考 虑 网 络 搜索 引擎 的 示例 ， 其 中 每 一 个 已 
获得 的 文档 对 应 于 搜索 结果 中 的 一 个 匹配 页 面 。 当 文档 被 漆 加 、 修 改 或 者 移 除 时 ， 度 量 和 指标 
也 需要 做 相应 更 新 。 男 外 ， 词 的 分 布 也 可 能 随 着 时 间 而 改变 ， 从 而 降低 分 类 器 和 过 滤器 (AJ 
WAEA) 的 效力 ， 除 非 对 它们 进行 重新 训练 。 





































































































































































































































































































































































































Er 






















































































N 























9.5 ” 词 频 - 遂 文 档 频 率 〈TFIDF ) 


KENA TFIDF， 这 是 一 种 在 信息 检索 与 文本 分 析 中 广泛 使 用 的 方法 。 与 使 用 传统 语料库 
作为 知识 库 不 同 , TFIDF 直接 工作 于 已 获得 的 文档 之 上 并 将 这 些 文档 本 身 作为 “语料库 ”。TFIDF 
对 动态 内 容 的 处 理 也 是 相当 强大 和 有 效 的 ， SEM MS 新 频率 计数 。 

对 于 给 定 的 词 t 和 包含 n 个 词 的 文档 & 2(f t, t.t), d 中 t 最 简单 的 词 频 形式 可 以 定义 
为 t 在 d 中 出 现 的 次 数 ， 如 公式 9.1 所 示 。 


TF(td)-Mf(tt) te€dijd|-n 
i=1 



































































































































































































































































































































pt 


(t,t') = L (9.1) 
POM =) 0 其 他 情况 i 


为 了 理解 词 频 是 如 何 计 算 的 ， 考 虑 一 个 有 10 个 单词 的 词 袋 向 量 空间 : i. love, acme, my, 
bebook, bphone, fantastic, slow, terrible, 、terrific。 给 定 在 9.3 节 中 从 RSS NS Ilove 
LOVE my bPhone, X 9.5 显示 了 在 转换 大 小 写 与 分 词 之 后 的 相应 词 频 向 量 。 



























































































































































表 9.5 一 个 词 频 向 量 的 示例 











词语 频率 
i 1 
love 2 
acme 0 
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词语 频率 
my 1 
bebook 0 
bphone 1 
fantastic 0 
slow 0 
terrible 0 
terrific 0 
可 以 对 词 频 函 数 取 对 数 。 在 第 3 章 的 图 3.11 和 图 3.12 中 , 提 到 可 以 对 长 尾 分 布 取 对 数 ， 以 
获得 更 多 数据 细节 。 类 似 地 ， 对 数 也 可 以 应 用 到 那些 含有 长 尾 的 词 频 分 布 中 ， 如 公式 9.2 所 示 。 










































































TF, (t, d) = log[TF, (t, d) +1] (9.2) 



































因为 文档 越 长 包含 的 词语 就 越 多 ， 它 们 往往 有 更 高 的 词 频 值 。 它 们 还 往往 包括 更 多 不 同 的 
词语 。 这 些 因素 似乎 共同 导致 了 长 文档 的 词 频 值 的 提升 ， 以 至 于 人 们 对 长 文档 产生 了 偏见 。 为 
了 解决 这 个 问题 ， 可 以 对 词 频 进行 规范 化 。 例 如 ， 文 档 d 中 的 词语 t 的 词 频 可 以 基于 d 中 词 的 
数量 来 规范 化 ， 如 公式 9.3 所 示 。 




























































































































































































eZ >H 
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|d|=n (9.3) 





























: 前 所 提 到 的 三 种 常见 定义 , 词 频 还 有 其 他 不 常见 的 变 体 [22]。 实 际 上 , 需要 选择 最 适 

合 数据 以 及 能 够 解决 问题 的 词 频 定义 。 
司 袋 向 量 空间 可 能 大 幅度 增长 以 池 盖 英语 中 所 有 的 词汇 ， 从 而 使 得 一 个 词 频 向 量 可 能 
具有 很 高 的 维度 〈 见 表 9.5 )。 高 维度 使 得 文本 难以 存储 和 解析 ， 同 时 也 带 来 了 与 文本 分 析 相 关 

















































































































































































































为 了 降低 维度 ,没有 必要 将 给 定语 言 中 的 所 有 词汇 都 包含 在 词 频 Ph。 例如， 在 英语 中 ， 
通常 会 移 除 例如 the 、a、of、and、to 这 类 冠 词 以 及 对 理解 语义 没有 多 大 帮助 的 其 他 冠 词 。 这 些 
常见 词汇 被 称 为 停止 词 (stop word )。 停止 词 的 列表 在 很 多 语言 中 都 有 ， 它 们 用 来 自动 化 识别 停 
止 词 。 其 中 Snowball 停止 词 列表 [23] 包 含 了 超过 10 种 语言 的 停止 词 。 
男 一 个 降低 维度 的 简单 而 有 效 的 方法 是 只 存储 文档 中 至 少 出 现 过 一 次 的 词语 
频 。 任 何不 在 词 频 向 量 中 出 现 词 的 频率 在 默认 情况 下 为 0。 因 此 ， 上 述 的 词 师 ARAS 
表 9.6 所 示 。 
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9.5 词 频 - 逆 文 档 频率 (TFIDF ) 





表 9.6 词 频 向 量 的 简化 形式 














词 频率 
i 1 
love 2 
my 1 
bphone 1 



































有 一 些 自然 语言 处 理 技术 ， 例 如 词 形 还 原 (lemmatization ) 和 词 干 提取 (stemming ) 也 可 以 
条 低 高 维度 。 词 性 还 原 和 词 干 提取 是 结合 词汇 不 同形 式 的 两 种 不 同 的 技术 。 通 过 这 些 技 术 ,， 例 
. plays, played 和 playing 这 类 词 可 以 被 映射 到 同一 个 词 。 

词 频 的 定义 表明 词 频 是 基于 一 个 词 在 独立 文档 中 出 现 次 数 的 原始 计数 。 词 频 本 身 存在 一 个 
关键 问题 : 那 就 是 单个 文档 就 是 全 世界 。 一 个 词 的 重要 性 完全 是 基于 它 存在 的 那个 特定 文档 。 
停止 词 ， 例 如 the, and 和 a， 不 应 该 被 当做 最 重要 的 词 ， 它们 在 每 个 文档 中 都 有 最 高 的 词 
频 。 例 如 ， 在 莎士比亚 的 《哈姆雷特 》 中 ， 频 率 最 高 的 三 个 词 都 是 停止 词 (the 、and 和 of， 如 
图 9.2 所 示 )。 除 了 停止 词 ， 那 些 有 更 通用 意义 的 词 也 往往 出 现 得 比较 频繁 ， 因 此 拥有 更 高 的 词 
频 。 在 一 篇 有 关 电 信 消 费 的 文章 中 , phone 这 个 词 可 能 会 得 到 一 个 较 高 的 词 频 。 这 样 一 来 , 重要 
的 关键 词 ， 比 如 bPhone 和 bEbook 以 及 它们 相关 的 词 ， 看 起 来 就 没有 那么 重要 了 。 考 虑 一 个 搜 
素 引 擎 ， 它 对 一 条 搜索 查询 做 出 响应 ， 然 后 提取 相关 文档 。 只 使 用 词 频 的 搜索 引擎 会 不 能 正 胡 
评估 每 个 文档 与 搜索 查询 的 相关 性 。 

这 个 问题 的 一 个 快速 解决 方法 是 引入 一 个 有 更 开阔 视野 的 额外 变量 一 一 不 但 要 考虑 一 个 词 
在 一 个 文档 中 的 重要 性 ， 还 要 考虑 它 在 一 个 文档 集合 或 者 一 个 语料库 中 的 重要 性 。 因 为 词语 会 
出 现在 更 多 的 文档 中 ， 因 此 这 个 额外 的 变量 会 降低 词 频 的 影响 。 
实际 上 ， 这 也 是 道 文档 频率 (IDF ) 的 目的 。IDF 与 文档 频率 (DF) 成 反比 。 文 档 频率 被 
定义 为 语料库 中 包含 一 个 词语 的 文档 的 数目 。 假 设 语料库 D 包含 N 个 文档 。 语 料 库 
D={di ,d; ,...dy } 中 的 词语 t 的 文档 频率 的 定义 如 公式 9.4 所 示 。 
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reni UA (9.4) 
' ^ [0， 其 他 情况 : 


词语 t 的 逆 文 档 频 率 是 由 N 除 以 词语 文档 频率 ， 然 后 对 这 个 商 肥 对 数 得 到 ， 如 公式 9.5 所 示 。 













































































IDF (t) = log (9.5 ) 
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DF (t) 


级 分 析 理 论 与 方法 : 文本 分 析 


= 
fe 


i 
Oo 
BR 












































速 解决 的 方法 是 在 分 母 上 加 上 1， 如 公式 9.6 





SU BOUE. | 

















3 








A, 25 
, 








BH 























AUR IRA 


Zo 


所 


(9.6) 















































































































































































































































zT 
o RNS 
1 BR dH 
Hg 其 JB 
Sm 3 
pn E 地 
ZE 
ae ME 
KO 
— E 
Dat. e 
foe] 
ky A 
KER 
Dac 
A 有 党 
Sees 
a OH 
E QM i dd 
~ 5 UR EE 
35H o X 
zt 0H 
uam 
oR 
S ip oc Nx 
Me m mW 
MN 
KPK 
13 ^W 4 am] 
uM 
SERE 
TS db XD 
= WM 
TIE 
Ae Wo sc 7 
ic 2 4E 
T^ m i 
SEE 
RERS 
m y A 
Camo 
mr OO E in 
3E Ré — 4E 
lg H 


(a) 具有 最 高 语料库 TF 的 词 
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(c) 具有 最 高 IDF 的 词 
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图 9.3 布朗 语料库 新 闻 分 类 中 具有 最 高 语料库 TF、DF 及 IDF 的 词 














9.6 ”通过 主题 来 分 类 文件 
























































有 和 较 高 IDF 的 词 往往 在 整个 语料库 中 更 重要 。 换 句 话 说， 罕见 词汇 的 IDF 会 高 ， 常 用 词 
的 IDF 会 低 。 例 如 ， 如 果 语 料 库 中 包含 了 1000 个 文档 ,其 中 1000 个 文档 都 包含 了 词 he， 而 其 
中 的 10 个 包含 了 词 bPphone。 根 据 公式 9.5, the 的 IDF Æ 0, bPhone 的 IDF 是 log100， 这 上 比 the 
的 IDF 大 。 如 果 语 料 库 中 大 多 数 都 是 对 于 电话 的 评论 ， 词 phone 会 可 能 会 有 较 高 的 TF 和 DF, 
但 是 IDF 会 较 低 。 
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尽管 IDF 偏向 那些 更 有 意义 的 词 ， 但 也 带 有 一 个 警告 。 因 为 语料库 的 所 有 文档 数目 CN) 
是 保持 恒定 的 , 因此 IDF 仅仅 取决 于 DEF。 所 有 的 词 都 有 一 样 的 DEF 值 , 因此 获得 一 样 的 IDF 值 。 
IDF 较 高 的 词 在 文档 中 出 现 的 频率 较 低 。 那 些 DF 值 最 低 的 词 获得 相同 的 最 高 IDF。 在 图 9.3 的 
(c) 中 ，sunbonnet 和 narcotic 在 布衣 语料库 中 出 现 的 次 数 一 样 比 它们 得 获得 了 相同 的 IDF 
















































































大 | 
分 ， 那 么 就 需要 引入 更 多 的 权 





























值 。 许 多 情况 下 ， 有 必要 对 文档 中 出 现 次 数 相同 的 两 个 词 进行 区 
重 词 来 改善 IDF 值 。 

TFIDF ( 5k TF-DIF ) 是 一 种 既 考 虑 词 在 文档 中 的 普及 率 (TF ) 还 考虑 它 在 整个 语料库 里 的 
稀缺 程度 (IDF) 的 评估 方法 。 词 语 t 在 文档 d 中 的 TFIDF 定义 为 4 中 + 的 词 频 乘 以 语料库 中 上 
的 文档 频率 ， 如 公式 9.7 所 示 。 




































































































































































TFIDF (t,d) = TF (t,d) x IDF (t) (9.7) 


一 个 词 的 TFIDF 的 值 越 高 ， 它 在 一 个 文档 中 出 现 的 越 频繁 ， 但 在 语料库 的 所 有 文档 中 出 现 
得 就 少 。 注 意 TFIDF 应 用 于 特定 文档 中 的 词语 ， 所 以 同一 个 词 在 不 同 的 文档 中 很 可 能 得 到 不 同 
的 TFIDF 值 (因为 TF 的 值 可 能 不 同 )。 

TFIDF 在 简单 和 直接 的 计算 中 是 很 有 效 的 ， 因 为 它 不 需要 文本 含 
































































































































































































































的 相关 知识 。 但 是 这 个 
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方法 也 很 难 揭示 文档 间或 文档 内 的 统计 结构 。 下 一 节 中 将 介绍 主题 模型 是 如 何 解决 这 个 TFIDF 
的 不 足 的 。 












































通过 对 评论 的 收集 和 表示 ，ACME 的 数据 科学 团队 想 要 根据 主题 来 分 类 评论 。 如 本 章 前 文 
所 述 , 一 个 主题 是 由 一 组 经 常 一 起 出 现 且 分 享 同 一 个 题材 (theme ) 的 词组 成 的 。 

能 不 像 它们 最 初 看 起 来 的 那么 直接 。 考 虑 下 面 两 个 评论 。 
Ho BIA TES. CRAZ bPhone4G 更 纤 薄 。 
2. 尽管 我 喜欢 ACME 的 bPhone 系列 , 但 是 我 对 bEbook 很 失望 。 bEbook 上 的 文字 难以 辨 
昌 使 得 我 的 老 NBook 看 起 来 异常 得 快 。 
第 一 个 评论 是 关于 bPhone5x 还 是 bPhone4G? 第 二 个 评论 是 关于 bPhone、bEbook， 还 是 
NBook? 对 于 机 器 来 说 ， 这 些 问题 很 难 回答 。 
直观 地 说 , 如 果 一 个 评论 是 谈论 bphone5x, 词语 bphone5x 和 相关 词语 ( 如 phone 和 ACME ) 












































































































































































































































































































































































































































第 9 章 高 级 分 析 理 论 与 方法 : 文本 分 析 




































































可 能 会 频繁 出 现 。 一 个 文档 通常 包含 多 个 题材 ， 而 且 这 些 题材 在 文本 中 的 比例 并 不 相同 ， 例 如 
30% 关 于 phone 的 主题 ,15% 关 于 appearance 的 主题 ，10% 关 于 shipping 的 主题 , 5% 关 于 service 
的 主题 ， 等 等 。 
可 以 用 聚 类 方法 (比如 均值 聚 类 ) 或 分 类 方法 (比如 支持 向 量 机 [25] 、k 近邻 [26] 或 朴素 
贝 叶 斯 ) 对 文档 分 组 。 然 而 ， 一 个 更 可 行 和 普遍 的 方法 是 使 用 主题 建 模 (topic modeling ) 3 
建 模 提 供 了 自动 组 织 、 搜 索 、 理 解 ， 并 汇总 大 量 信息 的 工具 。 主 题 模 型 [28,29] 是 统计 模型 ， 它 
研究 一 组 文档 中 的 单词 ， 确 定 文本 的 主题 ， 并 发 现 主题 是 如 何 相关 或 者 如 何 随时 间 变 化 。 主 题 
建 模 的 过 程 可 简化 为 如 下 。 
1， 揭 开 语料库 中 隐藏 的 主题 模式 。 
2， 根 据 这 些 主题 注释 文档 。 
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3， 使 用 注释 来 组 织 、 搜 索 、 汇 总 文本 。 
主题 (topic ) 被 正式 定义 为 词 在 固定 词汇 上 的 分 布 29] 。 不 同 的 主题 在 相同 的 词汇 上 会 有 不 
同 的 分 布 。 主 题 可 以 看 作 具 有 相关 含义 的 一 组 词 ,每 个 词 在 这 个 主题 中 有 着 相应 的 权重 。 注 意 





























































































































词汇 中 的 某 个 词 可 以 在 多 个 主题 中 有 不 同 的 权重 。 主 题 模型 并 不 一 定 需要 文本 的 先 验 知识 。 主 
题 可 以 完全 基于 分 析 文 本 来 形成 。 

最 简单 的 主题 模型 是 潜在 狄 利克 雷 分 配 (latent Dirichlet allocation, LDA ) [29], 它 是 David 
M. Blei 和 其 他 两 位 研究 人 员 提出 的 语料库 生成 概率 模型 。 在 生成 概率 建 模 中 ， 数 据 被 当做 包含 
了 隐藏 变量 的 生成 过 程 的 结果 。LDA 假定 有 一 个 固定 的 词汇 ,潜在 主题 的 数目 是 预定 义 的 而 
保持 不 变 。LDA 假设 每 个 潜在 主题 在 词汇 上 都 服从 狄 利克 雷 分 布 ( Dirichlet distribution ) [30], 
则 每 个 文档 就 被 表示 为 潜在 主题 的 一 个 随机 混合 。 
到 9.4 说 明了 LDA 背后 的 直觉。 图 的 左边 显示 了 从 一 个 语料库 构建 的 4 个 主题 ， 其 中 每 
个 主题 包含 词汇 中 最 重要 的 一 组 关键 词 。 这 4 个 主题 分 别 与 problem policy , neural 以 及 report 
相关 。 如 图 右 则 的 直方 图 中 显示 ， 每 个 文档 有 一 个 在 主题 上 的 分 布 。 接 下 来 ， 为 文档 中 的 每 
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个 词 分 配 一 个 主题 ,并 且 选 中 相应 的 主题 ( 色 盘 ) 中 的 词 。 在 现实 中 ， 只 有 文档 ( 如 图 的 中 间 
所 示 ) 是 可 用 的 。LDA 的 目标 是 为 每 一 个 文档 推断 潜在 的 主题 、 主 题 比 例 以 及 主题 分 配 。 
读者 可 以 参考 原始 文献 [29] 了解 LDA 的 数学 细节 。 基本 上 , LDA 被 视 为 使 用 后 验 分 布 对 数 

























































































具有 相似 主题 的 文档 ) 进行 分 组 的 层次 贝 叶 斯 估计 案例 。 
许多 编程 工具 都 提供 了 可 以 在 数据 集 上 执行 LDA 的 软件 包 。R 语言 有 lda 包 [31]， 它 有 内 
置 函数 和 样本 数据 集 。lda 包 由 Davic M. Blei 的 研究 组 开发 [32]。 图 9.5 显示 了 10 个 主题 在 9 个 
科学 文档 上 的 分 布 ， 这 9 个 科学 文档 是 从 lda 包 中 的 cora 数据 集 随机 抽取 的 。cora 数据 集 是 一 
个 从 Cora 搜索 引擎 [33] 中 提取 的 2410 个 科技 文档 的 集合 。 































































































































































































































































































图 9.5 
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proportion (%) 


10 个 主题 在 Cora 数据 集中 9 篇 科学 文档 上 的 分 布 
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主题 






algorithm _distribution bayesian error.probability 
learning.concept.algorithm.examples.learner 
E report bayesian.technical.university.chain 
a neural.learning.networks.system.network 
图 neural.networks.network.grant.research 
feature.learning.network features.visual 
E reasoning.design.knowledge.system.case 
[E genelic.control.fitness.problem.population 
decision. multiple.execution.parallel. instruction 
reinforcement state.learning.optimal.policy 
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下 面 的 代码 显示 了 如 何 使 用 R 语言 和 其 插件 包 ( 比 如 Ida 和 ggplot ) 来 生成 类 似 于 
所 示 的 图 。 





























require ("ggplot2") 
require ("reshape2") 
require ("lda") 


# load documents and vocabulary 
data (cora.documents) 
data (cora.vocab) 


theme set (theme bw()) 


# Number of topic clusters to display 
K «- 10 


# Number of documents to display 

N «- 9 

result <- lda.collapsed.gibbs.sampler (cora.documents, 
K, ## Num clusters 
cora.vocab, 
25, ## Num iterations 
OVI. 
0L, 
compute.log.likelihood-TRUE) 


# Get the top words in the cluster 
top.words «- top.topic.words(result$topics, 5, by.score-TRUE) 


# build topic proportions 
topic.props <- t(result$document sums) / colSums (result$document sums) 


document.samples <- sample(1:dim(topic.props)[1], N) 
topic.props «- topic.props[document.samples,] 





topic.props[is.na(topic.props)] <- 1 / K 


colnames (topic.props) <- apply(top.words, 2, paste, collapse=" ") 


topic.props.df <- melt (cbind(data.frame(topic.props), 
document-factor(1:N)), 
variable.name-"topic", 
id.vars = "document") 
qplot(topic, value*100, fill-topic, stat-"identity", 
ylab="proportion ($)", data-topic.props.df, 
geom-"histogram") 十 
theme(axis.text.x = element text(angle-0, hjust-1, size=12)) + 
coord flip() + 
facet wrap(~ document, ncol=3) 








pa 








9.5 


9.7 ”情感 分 析 















































主题 模型 可 用 于 文档 建 模 、 文 档 分 类 与 协同 过 证 [29]。 主 题 模型 不 仅 可 以 应 用 于 文本 数据 ， 
它们 还 可 以 帮助 注释 图 像 。 如 同 可 以 将 一 个 文档 当做 一 个 主题 集合 ， 图 像 也 可 以 被 当做 是 图 像 
特征 的 一 个 集合 。 
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除了 TFIDF 和 主题 模型 外 ,数据 科学 团队 还 想 要 识别 用 户 评论 和 ACME 产品 评论 中 的 情感 。 
情感 分 析 ( sentiment analysis ) 是 指使 用 统计 和 自然 语言 处 理 来 挖掘 个 人 意见 ， 以 从 文本 中 识别 
抽取 主观 信息 。 
情感 分 析 的 早期 工作 集中 于 从 文档 层面 检测 Epinions[34] 中 产品 评论 和 IMDB[35] 中 电影 评 
论 的 两 极 性 。 后 来 的 工作 则 是 在 语句 层面 来 进行 情感 分 析 [36]。 最 丘 ， 情 感 分 析 的 焦点 已 转移 到 
短语 (phrase) 层面 37] 和 短文 形式 ， 以 应 对 流行 的 微 博客 服务 ， 如 Twitter[38,39,40,41,42]. 

从 直观 上 讲 ， 要 进行 情感 分 析 ， 可 以 使 用 正面 情绪 ( 如 brilliant, awesome, spectacular ) 和 
面 情绪 (如 awful, stupid, hideous ) 来 手动 构建 词汇 表 。 相 关 人 研究 指出 ， 这 种 方法 可 以 达到 
约 60% 的 准确 度 [35]， 并 可 能 通过 检查 语 料 统计 [43] 超 过 这 个 准确 度 。 

朴素 贝 叶 斯 (第 7 章 )、 最 大 炉 ( MaxEnt ) 和 支持 向 量 机 (SVM ) 等 分 类 方法 经 常用 来 提 
取 语 料 库 统 计 ， 以 用 于 情感 分 析 。 相 关 研 究 发 现 ， 这 些 分 类 器 在 处 理 非 结构 化 数据 的 情感 分 析 
时 ， 可 以 达到 80% 左 右 的 准确 度 [35,41,42]。 一 个 或 多 个 这 样 的 分 类 器 可 以 用 于 非 结构 化 数据 ， 
比如 电影 评论 或 tweet。 
Pang 等 人 构建 的 电影 评论 语 米 含 从 rec.arts.movies.reviews 新 闻 组 [43] 的 IDMob 文档 
中 收集 的 2000 条 电影 评论 ,这 些 电影 评论 已 被 手动 标记 成 1000 个 正面 评价 和 1000 个 负面 评价 。 
取决 于 分 类 器 ， 数 据 可 能 需要 被 分 成 训练 集 和 测试 集 。 在 第 7 章 中 讲 到 ， 用 来 分 制 数据 的 
条 有 用 的 经 验 规则 是 , 让 训练 集 远 大 于 测试 集 。 例如, 80/20 分 割 会 将 80% 的 数据 作为 训练 集 ， 
20% 的 数据 作为 测试 集 。 
接 下 来 ， 需 要 在 训练 集 上 训练 一 个 或 多 个 分 类 器 ， 以 学 习 数 据 中 的 特征 或 模式 。 测 试 数据 
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中 的 情感 标签 对 分 类 器 来 说 是 隐藏 的 。 训 练 之 后 , 在 测试 集 上 测试 分 类 器 ， 用 以 推 新 情感 标签 。 
最 后 ， 通 过 与 原始 的 情感 标签 进行 对 比 ， 来 评估 分 类 器 的 整体 性 能 。 

接 下 来 的 Python 代码 使 用 了 自然 语言 处 理工 具 集 (NLTK ) JÆ (http://nltk.org/ )。 它 显示 J 
如 何 使 用 朴素 贝 叶 斯 分 类 器 对 电影 评论 语 料 进 行情 感 分 析 。 

这 段 代 码 将 2000 条 评论 分 为 1600 条 评论 的 训练 集 和 400 条 评论 的 测试 集 。 朴 素 贝 叶 斯 分 
类 器 通过 训练 集 来 学 习 。 测 试 集 的 情感 对 分 类 器 来 说 是 隐藏 的 。 针 对 训练 集中 的 每 条 评论 ， 分 
类 器 学 习 每 个 特征 是 如 何 影 响 结果 情绪 的 。 随 后 ， 将 分 类 器 用 于 测试 集 。 对 测试 集中 的 每 条 评 
论 ， 分 类 器 会 预测 与 该 评论 的 特征 相对 应 的 情感 。 















































import nltk.classify.util 
from nltk.classify import NaiveBayesClassifier 
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from nltk.corpus import movie reviews 
from collections import defaultdict 
import numpy as np 


# define an 80/20 split for train/test 
SPLIT = 0.8 


def word feats (words): 
feats = defaultdict(lambda: False) 
for word in words: 
feats[word] = True 
return feats 


posids = movie reviews.fileids('pos') 
negids = movie reviews.fileids('neg') 
posfeats - [(word feats (movie reviews.words(fileids-[f])), 'pos') 


for f in posids] 
negfeats = [(word feats (movie reviews.words(fileids-[f])), 'neg') 


for f in negids] 


cutoff - int(len(posfeats) * SPLIT) 


trainfeats = negfeats[:cutoff] + posfeats[:cutoff] 
testfeats = negfeats[cutoff:] + posfeats[cutoff:] 


print 'Train on $d instances\nTest on %d instances' % (len(trainfeats), 
len(testfeats)) 

classifier = NaiveBayesClassifier.train(trainfeats) 

print 'Accuracy:', nltk.classify.util.accuracy(classifier, testfeats) 


classifier.show most informative features() 

# prepare confusion matrix 

pos = [classifier.classify(fs) for (fs,l) in posfeats[cutoff:]] 
pos = np.array (pos) 


neg = [classifier.classify(fs) for (fs,l) in negfeats[cutoff:]] 
neg = np.array (neg) 





print 'Confusion matrix:' 
print 'Nt'*2, 'Predicted class' 
print '-'*40 
print '|\t %d (TP) \t|\t %d (FN) \t| Actual class' $ ( 
(pos == 'pos').sum(), (pos == 'neg').sum() 
print '-'*40 
print '|\t %d (FP) \t|\t %d (TN) \t|' è ( 
(neg == 'pos').sum(), (neg == 'neg').sum()) 
print '-'*40 
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接 下 来 的 输出 显示 了 村 素 贝 叶 斯 分 类 器 针对 电影 语料库 中 的 1600 个 实例 进行 了 训练, 外 
400 个 实例 进行 了 测试 。 分 类 器 达到 了 73.5% 的 准确 度 。 语料库 中 正面 评论 的 大 多 数 信息 特征 包 
括 这 样 的 词 : outstanding, vulnerable 和 astounding; 而 负面 评论 的 大 多 数 信息 特征 包含 这 样 的 
词 : insulting, ludicrous 和 uninvolving。 最 后 ， 输 出 还 显示 了 与 分 类 器 相对 应 的 混 靖 矩阵， 该 矩 
阵 可 用 于 进一步 评估 分 类 需 的 性 能 。 

Train on 1600 instances 

Test on 400 instances 


Accuracy: 0.735 
Most Informative Features 



















































































































































































































































































outstanding = True pos : neg = 13.9 x 
insulting - True neg : pos - 13.7 .0 
vulnerable - True pos : neg = 13.0 .0 
ludicrous = True neg : pos - 12.6 .0 
uninvolving = True neg : pos - 12.3 .0 
astounding - True pos : neg - 11.7 .0 
avoids = True pos : neg - 11.7 .0 
fascination = True pos : neg - 11.0 L.O 
animators = True pos : neg = 10.3 : 1.0 
symbol - True pos :neg = 10.3 : 1.0 
Confusion matrix: 
Predicted class 
| 195 (TP) | 5 (FN) | Actual class 




















在 第 7 章 中 讲 到 ， 一 个 混 请 和 矩阵 (confusion matrix ) 是 一 个 特定 的 表格 ， 它 能 够 可 视 化 一 
个 模型 在 测试 集 上 的 性 能 。 每 行 和 每 列 都 对 应 于 数据 集中 一 个 可 能 的 类 。 和 矩阵 中 的 每 个 单元 格 
显示 测试 案例 的 数量 ， 其 中 单元 格 所 在 的 行 是 实际 的 类 ， 所 在 的 列 是 预测 类 。 主 对 角 线 上 的 较 
大 的 数字 (TP、TN )， 以 及 较 小 的 ( 理想 情况 下 为 零 ) 非 对 角 线 元 素 (FP 和 FN )， 代 表 着 好 的 
结果 。 表 9.7 中 显示 了 前 面 程序 输出 中 由 400 条 评论 所 构成 的 测试 集 的 混淆 矩阵 。 因 为 一 个 玉 
子 的 分 类 器 的 混淆 矩阵 应 该 具有 较 大 TP 和 TN， 并且 FP 和 FN 在 理想 情况 下 接近 于 0， 由 此 推 
上 晰 ， 这 个 朴素 贝 叶 斯 分 类 器 有 许多 伪 阴 性 ， 它 在 这 个 测试 集 上 的 性 能 一 般 。 
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预测 类 
阳性 阴性 
实际 类 阳性 195 (TP) 5 (FN) 
阴性 101 (FP) 99 (TN) 















































除了 混淆 矩阵 之 外 ， 第 7 章 还 介绍 了 可 以 评估 分 类 器 性 能 的 其 他 一 些 度量 。 准 确 率 
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(Precision ) 和 召回 率 (Recall ) 是 经 常用 来 评估 文本 分 析 相 关 任 务 的 两 种 方法 。 公 式 9.8 和 公式 
9 给 出 了 准确 率 和 召回 率 的 定义 。 

































































TP 
Precision = ———— (9.8) 
TP + FP 
Recall — E. (9.9) 
TP + FN 


















































准确 率 被 定义 为 结果 中 有 相关 性 文档 的 百分比 。 如 果 输 入 关键 词 pPhone 后 , 182:5| SER TH 
100 个 文件 ， 其 中 70 个 是 相关 的 ， 则 搜索 引擎 的 准确 率 就 是 0.7。 

召回 率 是 返回 的 相关 文档 与 语料库 中 所 有 相关 文档 的 百分比 。 如 果 输 入 关键 词 bPhone 后 ， 
搜索 引擎 返回 100 个 文档 ， 其 中 只 有 70 是 相关 的 ， 同 时 未 能 返回 另外 10 个 相关 的 文档 ， 召 回 
率 就 是 70/ (70+10 ) = 0.875。 
KE 9.7 中 的 朴素 贝 叶 斯 分 类 器 得 到 195/ ( 195+5 ) =0.975 的 召回 率 和 195 / (195+101 ) 
= 0.659 的 准确 率 。 

无 论 是 搜索 引 警 的 信息 检索 还 是 有 限 语料库 上 的 文本 分 析 ， 准 确 率 和 召 
念 。 在 理想 情况 下 ， 一 个 好 的 分 类 器 的 准确 率 和 召回 率 应 该 接近 1。 在 信息 
的 准确 率 1， 意 味 着 搜索 检索 到 的 每 一 个 结果 都 是 相关 的 ( 但 无 法 说 明 是 否 
被 检索 )， 一 个 完美 的 召回 率 1， 意 味 着 所 有 的 相关 文档 都 被 搜索 到 了 但 无 法 说 明 
相关 的 文档 也 被 检索 到 )。 因 此 ， 准 确 率 和 召回 率 都 是 对 相关 性 的 理解 与 衡量 。 在 现实 中 ， 一 个 
分 类 器 很 难 同 时 实现 高 准确 率 和 高 召回 率 。 对 于 表 9.7 中 的 示例 ， 朴 素 贝 叶 斯 分 类 器 有 一 个 较 
高 的 召回 率 ， 但 是 准确 率 较 低 。 因 此 ， 数 据 科学 团队 需要 检查 数据 的 请 浩 度 ， 优 化 分 类 器 ， 
找到 方法 来 提高 准确 率 ， 同 时 还 要 保持 一 个 较 高 的 召回 率 。 

分 类 器 完全 基于 训练 数据 集 来 确定 情感 。 数 据 集 的 领域 以 及 特征 (feature ) 的 特点 
(characteristic ) 决定 了 分 类 器 可 以 学 习 到 什么 。 例 如 ，lightweight( 轻 量化 ) 对 笔记 本 评论 来 说 
是 一 个 正面 特征 ， 但 对 于 手推车 或 教科 书 的 评论 来 说 ， 不 见得 是 正面 的 。 此 外 ， 训 练 集 和 测试 
集 应 该 有 相似 的 特征 (trait )， 以 保证 分 类 器 的 性 能 。 例 如 ， 在 电影 评论 上 训练 的 分 类 器 一 般 不 
应 该 在 tweet 或 博客 评论 上 进行 测试 。 
注意 ,一 个 绝对 意义 的 情感 水 平 并 不 一 定 非 党 有用。 相反， 应 该 建立 一 条 基线 ， 然 后 将 其 
与 观察 值 比较 。 例 如 ， 一 个 产品 的 正面 tweet 有 40%, {if tweet 有 60%， 如 果 其 他 类 似 的 成 功 
产品 也 有 类 似 的 正 负面 百分比 ， 则 不 应 该 认为 该 产品 是 不 成 功 的 。 
前 文 的 示例 演示 了 如 何 使 用 朴素 贝 叶 斯 进行 情感 分 析 。 通 过 将 电影 评论 语料库 替换 为 预先 
标记 的 tweet， 这 个 示例 可 以 应 用 到 与 ACME 的 bPhone 和 bebook 相关 的 tweet 上 。 也 可 以 使 用 
[他 分 类 咒 来 取代 朴素 贝 叶 斯 。 
昌 影 评论 语料库 只 包含 2000 条 评论 , 因此 ,比较 容 易手 动 标记 每 一 条 评论 。 对 于 大 量 流 ; 
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据 上 的 情感 分 析 ， 比 如 百 万 或 数 十 亿 级 的 tweet， 不 太 可 能 收集 和 构建 一 个 足够 大 的 tweet 230 
R, 或 者 手工 标记 每 条 tweet， 用 于 训练 和 测试 一 个 或 多 个 分 类 器 。 有 两 种 流行 的 方法 来 应 对 
个 问题 。 如 Go 等 人 [41 ] 与 Pak 和 Paroubek [42] 在 最 近 工 作 中 所 展示 的 那样 ,构建 预先 标记 的 
数据 的 第 一 种 方式 是 应 用 监督 ,并 使 用 表情 符号 , 例如 : ) 和 :( ， 以 表示 tweet 是 否 包 含 正 面 或 
负面 情绪 。 这 些 tweet 中 的 词 可 以 被 用 作 线 索 ， 以 对 后 续 tweet 的 情感 进行 分 类 。Go 等 人 [41 ] 
TE VIZ SERES EE FH BLESS DIEI, SARI SVM 等 在 内 的 分 类 方法 进行 情感 分 类 。F 
以 在 http:/www.sentiment140.com 查看 他 们 的 演示 。 图 9.6 中 显示 了 在 一 组 tweet 上 对 条 “Boston 
weather” 进 行 查询 后 的 情感 结果 。 观 察 者 可 以 将 结果 标记 为 准确 或 不 准确 ， 这 样 的 反馈 可 以 合 
并 到 算法 的 后 续 训 练 中 。 
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Sentiment140 mee: 
Boston weather English * Search 
Sentiment analysis for Boston weather 


Sentiment by Percent Seramert by Count 


Tweets about: Boston weather 


anycia123 | really hate boston weather _ | gotta move out of there 
Poste? 3 hows ago 


AnyManeBrawner @AmyManeBrawner Thoroughly enjoyed the Beautiful Boston Weather. On to New York! #Travel 
#bostonrocks #happywoman 
Festos 19 hows age 


WiTadmissions We hope our Leopards are outside enjoying this beautiful Boston weather! #summerinthecity 
Posm | cay ago 
$panisn2079 Enjoying some nice boston weather at caste isiand with the family! Liam loves going shirtless, 
E: 

at36 &Vichie12 QRIZZaLicious?Me @Tamikohackworth GCutieUTumMeOn GM BLESSINGS 


rogers saah @mrzphatc 
TOO ALL. BOSTON WEATHER IS AWESOME! !! ENJOY 
Postee 2 cays age 


Rijoum @CassieFreund Giad Boston weather cooperated See you later today. Cassie!! And umbrellas from leaves? 
What clever creatures! 


Postes 2 erys age 





RT @smecrac Sunshine and fresh. salt air. hope attenc ipe: mne voor I roro d 
IE 07 A HAN perg The results for this query are | Accurate | | Inaccurate 


图 9.6 Sentiment 140[41]， 一 个 用 于 Twitter 情感 分 析 的 在 线 工 具 



























































使 用 表情 符号 可 以 很 容易 和 快速 地 检测 数 百 万 或 数 十 亿 的 tweet 情感 。 然 而 使 用 表情 符号 作 
为 情感 的 唯一 指标 有 时 会 产生 误导 ， 因 为 表情 符号 不 一 定 与 相应 文本 的 情绪 相对 应 。 例 如 ， 图 
9.7 中 显示 的 tweet 包含 : ) 表情 符号 ， 但 文字 并 没有 表达 正面 情绪 。 


LMack @lauriemackaye24 
=f | have an awful feeling I'm going to fail my exams :) 


Expand 


































































































































































































图 9.7” 带 有 : ) 表情 符号 的 tweet 不 一 定 对 应 正面 情绪 
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E51 (Amazon) Mechanical Turk, MTurk[44] 
] 人 类 智 
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为 了 解决 这 个 问题 ， 相 关 的 研究 通常 使 用 
收集 由 人 工 标记 的 评论 。MTurk 是 一 个 互联 网 众 包 市 场 ， 它 能 使 个 人 或 企业 协同 使 
慧 来 执行 电脑 难以 胜任 的 任务 。 在 许多 情况 下 ，MTurk 已 被 证 明 收 集 人 类 输入 的 速度 远 快 于 传 
统 渠道 ( 比如 挨家 挨户 调查 ). 对 情感 分 析 的 案例 来 说 ,数据 科学 团队 可 以 把 9.3 节 收 集 到 的 tweet 
作为 人 类 智能 任务 ( Human Intelligence Task, HIT ) 发 布 到 MTurk。 团 队 可 以 要 求人 类 工人 (human 
worker ) 将 每 个 tweet 标记 为 正面 的 、 中 性 的 或 负面 的 。 由 此 生成 的 结果 可 以 用 来 训练 一 个 或 多 
个 分 类 器 ， 或 者 测试 分 类 器 的 性 能 。 图 9.8 显示 了 与 情感 分 析 有 关 的 一 个 MTurk 任务 示例 。 
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amazonmechanicalturk | -— QU) 204274 MTs 


available now 


An rrs 1 HITS Available To You ! HITS Assigned To You 





Timer: 00:00:00 of 30 minutes Want to work on this MIT? Want to see other HITs? Total Earned: $0.1 
Total HITs Submitted: 
(Judge the Relevance and Senbment of content about PayPal (206511) B 
Requester: Crowdllower 
Qualifications Required: HIT approval rate (%) is greater than 56 


Reward: $0.05 per HIT — HITs Available: 12 Duration: 30 minutes 





Help * Login for rewards 





Task preview 


Judge the Relevance and Sentiment of content about PayPal (206511) 


POST: RT &pesoexchanger Exchange your Paypal funds to CASH NOW! No more waiting for days! No more delays! 


Get money even on Holidays or... http.//t co/OJJqe3YatW 





Please pay close attention to the post 


What is the author's sentiment (feeling) throughout the post (outlined in red) as it relates to PayPal? 
Very Positive 
Slightly Positive 
Neutral 

Slightly Negative 

Very Negative 















Want to work on this HIT? Want to see other HITS? 
Report this HIT: violates the Amazon Mechanical Turk pobciag or broken ( Why?) 
ontact Us | Careers at Amazon | Developers | Press | Pohoes | Blog 


An amazoncom company 


(02005-2013 Amazon.com, Inc. or its Affiliates 
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9.8 亚马逊 MTurk 











9.8 获得 洞察 力 
到 目前 为 止 ， 本 章 已 经 讨论 了 几 个 文本 分 析 任 务 ， 包 括 文本 收集 、 文 本 表示 、TFIDF、 主 


题 模型 和 情感 分 析 。 本 节 将 说 明 ACME 如 何 使 用 这 些 技 术 从 客户 对 其 产品 的 看 法 中 获得 洞察 力 。 
































































































































9.8 ”获得 洞察 力 






































为 了 保持 示例 简单 ， 本 节 只 使 用 bPhone 来 演示 步骤 。 
在 相应 的 数据 收集 阶段 , 数据 科学 团队 用 bPhone 作为 关键 词 从 一 个 流行 的 技术 评论 网 站 上 
收集 了 300 多 条 评论 。 
在 移 除 了 停止 词 之 后 ， 这 300 条 评论 可 以 被 可 视 化 为 单词 云 (word cloud )。 单 词 云 (或 标记 云 
[tag cloud] ) 是 文本 数据 的 一 种 可 视 化 表示 形式 。 标 记 一 般 都 是 单个 单词 , 每 一 个 单词 的 重要 性 由 字 


本 大 小 或 颜色 体现 。 图 9.9 所 示 为 由 300 条 评论 构建 的 单词 云 。 评 论 已 经 被 转换 为 小 写 ， 而 且 移 除 
了 停止 词 。 在 图 99 中 ， 出 现 越 频繁 的 词 会 以 相对 较 大 的 字体 来 显示 。 每 个 单词 的 布局 只 是 为 了 美 
Whe 图 的 大 部 分 由 单词 phone 和 bPhone 组 成 , 这 两 个 词 频 繁 发 生 但 并 不 非常 具有 信息 量 。 总 体 而 言 ， 


该 图 几乎 没有 显示 任何 信息 。 团 队 需 要 对 数据 进行 进一步 的 分 析 。 
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9.9 5 bPhone 有 关 的 300 条 评论 形成 的 单词 云 
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柱 运 的 是 ， 技 术 评 论 网 站 允许 用 户 在 发 布 评论 时 进行 打分 ， 其 分 值 范 围 为 1~5。 团 队 可 以 













































































H 
， 财 队 可 以 删除 诸如 phone, bPhone 和 ACME 这 样 的 词 ， 这 些 词 对 于 
研究 不 是 很 有 用 。 相 关 研究 往往 将 这 些 词 称 为 特定 领域 的 停止 词 (domain-specific stop word ). 





























































































































































































































到 9.10 所 示 为 与 50 个 5 星 评 论 相 对 应 的 单词 云 。 注 意 ， 灰 色 的 色调 也 只 是 为 了 美观 。 结 果 表 
明 顾 客 对 seller, brand 和 product 3) wei EAM bu 向 朋友 和 家 人 recommend ( 推荐 ) bPhone。 
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图 9.10 5 星 评论 的 单词 云 
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9.11 所 示 为 与 70 个 1 星 评论 相对 应 的 单词 云 。 单 词 sim 和 button 频繁 发 生 , 建议 将 包 
含 这 些 词语 的 评论 作为 样本 ， 来 确定 针对 按钮 和 SIM 卡 的 看 法 。 单 词 云 可 以 揭示 最 重要 词语 
以 外 的 有 用 信息 。 例 如 ， 图 9.11 很 奇怪 地 包含 了 stolen, Venezuela 等 单词 。 当 数据 科学 团队 






















































































































































































































































































































































































第 9 章 高 级 分 析 理 论 与 方法 : 文本 分 析 
去 调查 这 些 单词 背后 的 故事 时 ， 发 现 这 些 词 出 现在 1 星 评论 中 ,原因 是 位 于 委内瑞拉 的 一 些 
未 经 授权 的 销售 商会 出 售 偷 来 的 bPhone。ACME 可 以 从 这 一 点 上 采取 进一步 的 行动 。 这 是 一 
个 文本 分 析 和 可 视 化 如 何 有 助 于 获得 洞察 力 的 案例。 
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9.11 1 星 评论 
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9.12 所 示 为 评论 的 
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TFIDF #1 
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于 一 个 较 大 的 TFIDF 1 








大 字号 的 每 个 
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定 bPhone 




















TFIDF 可 以 和 
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H TFIDF 





























平 论 ， 然 后 识别 可 上 


minor bugs september 17, 2013 
this was for my sister who loves it. she Says « has minor bugs but nothing 
she Cant deal with. she is overall satisfied with it 


RK 





. © mint condition 113 september 13, 2019 

great price , not a Scratch or DUMP on the bphone it came a lot speedier than 
expected so thats always a plus : its just wonderful , only had « for a couple 
of days and could n't ask for anything more 111+ 


* buttons did not work september 08, 2015 

when i went to have my contacts transferred i was found that the two 
buttons need to switch did not work consistantly 

UA It's a bphone. August 12, 2013 

i hate acme and acme products. base both on principle and on functionality ( 
or lack thereof ) . that being said i guess this phone is great for old people 
that are wt tech savvy. i bought this for my aunt 


just like new i love this phone august 10, 2013 
my phone is great it Came on time with everything in the box and new. nothing 
was use , it was all its original packaging . 


great product august 10, 2015 
i lost my phone on halloween and needed a quick and easy replacement , 
the phone was in very good condition , and had met my expectation . 


t bphone Juy 26, 2013 
the phone was clean , unscratched and in good condition. i just wish the 
battery lasted a little inger. otherwise a great purchase : 


bphone yu 25, 2013 
love my bphone : have not had any problems with it. ks easy to use and 
holds so much more than my last phone . 


直 的 评论 
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图 9.13 和 9.14 中 显示 的 主题 为 LDA 








模型 可 以 把 评论 归 类 为 主题 。 












































lr 























NS 











Ea 


FE 











从 5 





[ 具 和 技术 生成 的 。 图 9.13 可 视 














Python, NoSQL 和 D3.js 等 了 
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E 题 。 每 个 主题 专注 o 
不 境 中 ,将 鼠标 悬 停 在 一 个 主题 上 就 可 以 显示 其 所 有 单词 以 及 相应 的 权重 
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图 9.13 5 星 评论 的 10 个 主题 








图 9.14 1 星 评论 的 10 个 主题 




















图 9.14 可 视 化 了 从 1 
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PEHI 10 个 3 





E 题 。 例 如 , 右 下 

















的 主题 


包含 诸如 button , power 











和 broken 这 样 的 单词 ， 这 可 能 表明 bPhone 有 按钮 与 电源 相关 的 问题 。 数 据 科 学 团队 可 以 跟踪 
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高 级 分 析 理 论 与 方法 : 文本 分 析 

















































































































































































































































































































































































































文 些 评论 并 确定 是 否 真 的 如 此 。 
图 9.15 中 提供 了 一 种 不 同 的 方式 来 可 视 化 主题 。 分 别 从 5 星 评论 和 1 星 评论 中 提取 5 个 主题 。 
在 一 个 交互 式 环境 中 ， 当 鼠标 基 停 在 一 个 主题 上 时 ， 就 可 以 突出 这 个 主题 中 相应 的 词 。 图 9.15 
所 示 的 屏幕 截图 是 将 鼠标 悬 停 到 这 两 个 组 的 Topic 4 时 获得 的 。 主题 中 单词 的 权重 由 圆 盘 大 小 来 
表示 。 
would © o would © Qo 
works © © o o working oO 
week o work oO 
way © went Q 
warehouse Q used 
using Oo use & 
time o two © 
thank © slot © 
system Q sm © Q 
sweet Qo screen © 
surprised Q return © 
seller o o received Q 
see © product Q 
recommend © © people 
received O © one © © © 
product oO o new e D © 
pleased © never Q 
perfect o mac © 
one o know Q 
older © got oO © 
nice © ot @ © 
love Q Q te @ 
like fix © 
great © 9 o first Q 
got disappointed © 
good o 由 device © 
give o description O 
first o could Q 
day o case @ 
came [9] cant © 
buyer o buy © © © 
brand @ o button Q Q 
bought © o broken @ 
better @ bought Q Q Q 
able o back © [9] 
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 
图 9.15 5 星 评论 (£R) 和 1 星 评论 (AR) 的 5 个 主题 
数据 科学 团队 还 对 Twitter 网 站 上 的 100 条 tweet 进行 了 情感 分 析 ， 结 果 如 图 9.16 所 示 。 
左 侧 代表 负面 情感 ， 右 侧 代表 正面 情感 。 只 是 为 了 美观 ，tweet 被 随机 地 垂直 摆 放 。 每 条 tweet 
表示 为 一 个 圆 盘 ， 其 大 小 表示 原 tweet 作者 的 粉丝 数量 。 圆 盘 的 色彩 明暗 则 代表 这 条 tweet 被 转 
发 的 频率 。 图 9.16 表明 大 多 数 客户 都 满意 ACME 的 bPhone。 
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9.16 与 bPhone 相关 的 tweet 的 情感 分 析 
9.9 总结 


本 章 介绍 了 文本 分 析 的 子 任 务 ， 包 括 句法 分 析 、 搜 索 和 检索 、 文 本 控 
的 示例 ， 本 章 讨论 了 一 个 典型 的 文本 分 析 流 程 : (1 ) 收集 原始 文本 ; (2 ) 3 
TFIDF 来 计算 文本 中 每 个 词 的 有 用 性 ; CA) 使 用 主题 建 模 按照 主题 进行 文档 
析 ; C6) 获取 更 好 的 洞察 力 。 

总 体 上 ， 文 本 分 析 并 不 简单 。 与 数据 分 析 生 
分 常常 不 是 执行 统计 计算 或 实现 算法 。 团 队 可 能 
据 和 准备 数据 。 
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借助 于 品牌 管理 
示 文 本 ; (3) 
328; (5) 情感 分 
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命 周期 相对 应 ， 文 本 分 析 项 目 中 最 耗 时 的 部 
会 花费 绝 大 多 数 时 间 来 对 问题 建 模 、 获 取 数 

















































































































9.10 练习 


文本 分 析 的 主要 挑战 是 什么 ? 
什么 是 语料库 ? 





















































1. 

2. 

3， 常 用 词 (例如 a、and、of ) 叫做 什么 ? 
4. 为 什么 不 能 只 使 用 TF 来 衡量 词 的 有 用 性 ? 
5. IDF 中 的 警告 是 什么 ?TFIDF 是 如 何 解决 这 
6 
7 
8 
9 
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. JH — ER] TFIDF 的 好 处 。 
情感 分 析 可 以 使 用 什么 方法 ? 

































































， 主 题 模型 中 主题 的 定义 是 什么 ? 
.解释 准确 率 和 召回 率 之 间 的 权衡 。 

10. 使 用 Python 和 LDA 对 Reuters-21578 语料库 进行 LDA 主题 建 模 。Reuters-21578 已 经 
9 带 了 NLTK。 为 了 导入 这 个 语料库 ， 在 Python 中 输入 下 面 的 语句 : 

from nltk.corpus import reuters 

LDA 在 儿 个 Python JÆ (如 gensim[45] ) 中 都 实现 。 在 对 Reuters-21578 进行 主题 建 模 时 ， 
可 以 利用 一 个 现 有 库 ， 也 可 以 自行 实现 LDA。 

1l. 选择 一 个 你 感 兴趣 的 话题 ， 如 电影 、 一 个 名 人 ,或 任何 词 ， 然 后 收集 100 个 与 这 个 主 

题 相 关 的 tweet。 将 它们 手动 标记 为 正面 的 、 中 立 的 或 者 负面 的 。 接 下 来 ， 将 其 中 80 条 tweet 
作为 训练 集 ， 其 余 20 条 tweet 作为 测试 集 。 在 这 些 tweet 上 运行 一 个 或 多 个 分 类 器 进行 情感 分 
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这 些 分 类 器 的 准确 率 和 召回 率 是 多 少 ? 哪 个 分 类 器 的 性 能 最 好 ? 
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Bo 章 讲 解 了 几 种 有 用 的 分 析 方 法 来 分 类 、 预 测 和 检查 数据 中 的 关系 。 本 章 和 第 
讲解 收集 、 存 储 、 处 理 非 结 构 化 与 结构 化 数据 的 相关 内 容 。 本章 介绍 了 一 些 与 Apache 
Hadoop 软件 库 相 关 的 关键 技术 和 工具 ,“Hadoop 是 一 个 在 计算 机 集群 上 使 用 简单 的 编程 模型 对 
大 数据 集 进行 分 布 式 处 理 的 框架 ”[1]。 
本 章 将 重点 介绍 Hadoop 如 何在 分 布 式 系统 中 存储 数据 ， 以 及 Hadoop 如 何 实现 一 个 名 为 
MapReduce 的 简单 编程 模型 。 本 章 虽 然 涉 及 一 些 Java 代码 , 但 是 读者 仅 需 对 编程 有 一 个 基本 的 
理解 。 此 外 ， 使 用 Java 为 Apache Hadoop 编写 一 个 MapReduce 程序 的 细节 超出 了 本 书 的 范围 。 
省 略 这 些 细节 可 能 会 带 来 一 些 麻 烦 ， 但 Hadoop 生态 系统 中 的 工具 ， 比 如 Apache Pig 和 Apache 
Hive， 经 常 可 以 避免 手工 编写 MapReduce 程序 。 本 章 在 讲解 Hadoop 生态 系统 时 ， 会 讲解 Pig、 
Hive 以 及 其 他 的 Hadoop 相关 工具 。 

为 了 展示 Hadoop 在 处 理 非 结构 化 数据 方面 的 强大 ， 下 面 的 讨论 提供 了 几 个 Hadoop 用 例 。 


10.1 非 结构 化 数据 分 析 


在 进行 数据 分 析 之 前 ， 必 须 收集 和 处 理 所 需 数据 以 提取 有 用 的 信息 。 初 始 数 据 处 理 
的 程度 取决 于 数据 量 大 小 ， 以 及 数据 的 构造 有 多 直观 。 

在 第 1 章 中 讨论 了 4 种 类 型 的 数据 。 

e 结构 化 : 一 种 特定 和 一 致 的 格式 〈 例 如 ， 一 个 数据 表 )。 

e HAM: 一 种 自 描述 的 格式 〈 例 如，XML 文件 )。 
e 准 结构 化 : 一 种 有 些 不 一 致 的 格式 〈 例如， 一 个 超 链接 )。 
e 结构 化 : 一 种 不 一 致 的 格式 〈 例如， 文本 或 视频 )。 
结构 化 数据 ， 如 关系 数据 库 管 理 系统 (RDBMS) 的 表 ， 是 典型 的 最 容易 解释 的 数据 格式 。 
然而 在 实践 中 ， 仍 然 有 必要 理解 可 能 出 现在 某 个 特定 列 中 的 不 同 的 值 ， 以 及 这 些 值 在 不 同情 况 
下 表示 什么 ( 例如 ,基于 同一 记录 的 其 他 列 的 内 容 )。 此外, 一些 列 可 能 还 包含 非 结构 化 文本 或 
存储 对 象 ， 如 图 片 或 视频 。 昌 然 在 本 章 介绍 的 工具 重点 关注 的 是 非 结 构 化 数据 ， 但 这 些 工具 也 
可 以 被 用 于 更 为 结构 化 的 数据 集 。 
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10.1.1 用 例 


下 文 提 供 了 MapReduce 的 几 个 用 例 。MapReduce 计算 模型 提供 了 一 些 方法 , 可 以 将 一 个 大 
任务 分 解 成 比较 小 的 任务 且 并 行 地 运行 , 然后 将 每 个 任务 的 输出 结果 合并 到 最 终 的 输出 结果 中 。 
Apache Hadoop 包含 了 MapReduce 的 一 个 软件 实现 .本 章 后 面 将 提供 关于 MapReduce 和 Hadoop 
更 多 的 细 市 。 

1. IBM Waston 
在 2011 £, IBM 的 计算 机 系统 Watson 参加 了 美国 电视 游戏 节目 Jeopardy， 对 抗 Jeopardy 



















































































































































































































































































10.1 非 结构 化 数据 分 析 
























































节目 史上 最 好 的 两 个 冠军 。 在 比赛 中 , 会 提供 给 参赛 者 一 条 线 矢 ， 如 “He likes his martinis shaken, 

not stirred”， 而 正确 的 答复 以 问题 的 表述 形式 可 能 是 “Who is James Bond?”。 在 为 期 三 天 的 比赛 

FH, Watson 击败 了 两 个 人 类 参赛 者 。 
为 了 教育 Waston, Hadoop 用 于 处 理 各 种 数据 源 ， 如 百科 全 书 、 字 典 、 新 闻 资 料 、 文 学 和 维 

科 的 全 部 内 容 [2]。 对 于 游戏 中 提供 的 每 条 线索 ，Waston 必须 要 在 不 到 3 秒 的 时 间 里 执行 

王 务 [3] 

e ”把 线索 解构 为 单词 和 短语 。 

e ”建立 单词 和 短语 之 间 的 语法 关系 。 

@ 创建 一 组 相似 词语 ， 以 在 Waston 搜索 答复 时 使 用 。 

e 使 用 Hadoop 在 数 百 万 兆 字 节 (TB) 的 数据 上 搜索 答复 。 
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确定 可 能 的 答复 并 确定 其 正确 的 可 能 性 。 
[9 









































用 英语 提供 一 个 语法 上 正确 的 响应 。 

在 其 他 应 用 中 ，Waston 在 医疗 行业 中 用 于 诊断 患者 和 提供 治疗 建议 [4]。 
2. Linkedln 
LinkedIn 是 一 个 在 线 职 业 社交 网 络 ， 其 在 2014 年 早期 就 在 200 个 国家 拥有 2.5 亿 用 户 [5]。 
LinkedIn 提供 多 个 免费 和 订阅 服务 ， 例 如 公司 信息 页 面 、 职 位 招聘 、 人 才 搜 索 、 个 人 联系 人 的 
社交 图 谱 、 个 人 定制 的 新 闻 资 料 、 以 及 访问 讨论 组 ( 包括 一 个 Hadoop 用 户 组 )。LinkedIn 出 于 
如 下 目的 来 使 用 Hadoop[6]。 
e ”处理 日 常 的 生产 数据 库 的 事务 日 志 。 
e ”检测 用 户 行为 ， 如 浏览 和 点 击 。 
@ 将 提取 的 数据 反馈 到 生产 系统 。 
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重 构 数据 并 将 其 添加 到 分 析 数据 库 。 
开发 和 测试 分 析 模型 。 












































ELE 2012 年 ，Yahoo! 有 着 公开 的 最 大 之 一 的 Hadoop 集群 , 部署 在 42000 个 节点 上 
有 350 PB 的 原始 存储 [7]。Yahoo! 的 Hadoop 应 用 包括 以 下 几 种 [8] 
e 搜索 索引 的 创建 与 维护 。 
e 网 页 内 容 的 优化 。 
e 网 站 广告 放置 的 优化 。 
e ”垃圾 邮件 过 滤器 。 
e 即席 分 析 及 分 析 模 型 开发 。 
在 部 署 Hadoop 之 前 ，Yahool! 花 了 26 天 来 处 理 
间 缩 短 至 20 分 钟 。 
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FE 的 日 志 数 据 。 使 用 Hadoop 后 ， 处 理 时 
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10.1.2 MapReduce 


如 前 文 所 述 ，MapReduce 计算 模型 将 一 个 大 任务 分 解 成 较 小 任务 然后 并 行 地 运行 ， 最 后 将 
每 个 任务 的 输出 结果 整合 到 最 终结 果 中 。 顾名思义 , MapReduce 是 由 两 个 基本 部 分 组 成 一 一 Map 
步骤 和 Reduce 步骤 一 一 细节 如 下 。 
Map: 
e 对 一 块 数据 应 用 一 个 操作 ; 
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[RIZR AR. 
Reduce: 
e 合并 从 Map 步 又 
e 输出 最 终 的 结果 。 
每 一 步 都 使 用 键 / 值 对 (表示 为 <key，value> ) 作为 输入 和 输出 。 可 以 把 键 / 值 对 想象 为 一 个 
简单 的 有 序 对 。 然 而 ， 键 / 值 对 的 形式 也 可 以 相当 复杂 。 例 如 ， 键 可 以 是 一 个 文件 名 ， 值 可 以 是 
该 文件 的 全 部 内 容 。 

一 个 最 简单 的 MapReduce 示例 是 单词 计数 ， 即 计算 每 个 单词 在 文档 集合 中 出 现 的 次 数 。 在 
实际 中 , 其 目的 是 建立 单词 列表 和 对 应 词 频 ， 以 供 搜索 使 用 或 者 是 确立 某 些 单词 的 相对 重要 性 。 
第 9 章 中 提供 了 更 多 文本 分 析 的 细节 。 图 10.1 所 示 为 MapReduce 处 理 单个 输入 ( 在 这 里 为 一 行 
文本 ) 的 情况 。 
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出 的 中 间 结 果 ; 
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<1234, “For each word in each string"> 


| Map 


<For, 1> <each, 1> <word, 1> <in, 1> <each, 1> <string, 1> 


4 Reduce 


<For, 1> 
<each, 2> 
<word, 1> 

<in, 1> 
<string, 1> 





网 








10.1 MapReduce 如 何 工 作 的 示例 





























在 这 个 例子 中 ，Map 步骤 将 给 定 的 文本 字符 串 解析 为 一 个 个 的 单词 ， 然 后 以 <word，1> 的 
处 输出 一 组 键 / 值 对 。 对 于 每 一 个 独特 的 键 值 一 一 在 本 例 中 为 word — Reduce 步骤 算出 其 出 
现 次数 的 总 和 count， 然 后 输出 <word，count> 键 / 值 对 。 因 为 单词 each 在 给 定 的 文本 行 中 出 现 两 
次 ， 因 此 Reduce 步骤 输出 了 相应 的 键 / 值 对 <each 2». 
立 该 注意 到 ， 在 这 个 例子 中 ， 原 始 键 1234， 在 处 理 过 程 中 被 忽略 了 。 在 一 个 典型 的 单词 计 
数 应 用 中 ，Map 步 又 可 应 用 于 数 百 万 行文 字 并 在 Reduce 步骤 中 汇总 所 有 Map 步 又 所 生成 的 键 / 
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对 单词 计数 的 例子 进行 扩展 ， 将 MapReduce 过 程 应 用 到 一 组 文档 中 ， 其 输出 结果 中 key 为 
AFX, values 为 长 度 为 2n 的 一 个 有 序 元 组 。 这 样 的 一 个 键 / 值 对 可 能 具有 如 下 的 表示 形式 。 
<(filename, datetime), (word1,5, word2,7,... , wordn,6)» 


在 这 种 结构 中 ， 键 是 filename 和 datetime 的 有 序 对 。 值 由 n 对 单词 和 它们 在 相应 文件 中 的 





















































































































































































































































当然 , 单词 计数 问题 可 以 用 MapReduce 以 外 的 许多 其 他 方法 来 解决 。 然 而 MapReduce 的 优 
负载 分 布 到 计算 机 集群 上 ， 然 后 并 行 运行 任务 。 在 单词 计数 中 ， 文 档 甚 至 是 文 
JE Map 步 又 中 同时 处 理 。MapReduce 的 一 个 关键 特点 是 对 部 分 输入 的 处 理 ， 
可 以 独立 于 其 他 输入 的 处 理 来 进行 ， 因 此 ， 工 作 负载 可 以 很 容易 地 分 布 到 一 个 计算 机 集群 中 。 
美国 海军 少将 Grace Hopper ( 1906 年 一 1992 年 ) 是 计算 机 领域 中 的 先驱 ， 她 很 好 地 解释 了 
要 使 用 计算 机 集群 。 在 前 工业 化 时 期 , 牛 被 用 来 拖 运 重 物 ， 但 是 当 一 头 牛 拉 不 动 的 
门 并 没有 尝试 换 一 只 更 大 的 牛 ， 而 是 选择 增加 更 多 的 牛 。 她 的 观点 是 ， 随 着 计算 问题 
[建造 更 大 、 更 强 、 更 昂贵 的 计算 机 ， 不 如 建立 一 个 由 许多 计算 机 组 成 的 系统 来 分 担 工作 负 
。 因 此 在 MapReduce 环境 中 ， 大 量 的 处 理 任务 会 被 分 布 到 许多 计算 机 上 。 
尽管 MapReduce 的 概念 已 经 存在 了 几 十 年 ， 但 是 直到 2004 £, Google 的 Dean 和 
Ghemawat[9] 发 表 的 论文 才 引 起 了 大 众 对 MapReduce 的 兴趣 以 及 采纳 。 该 论文 描述 了 Google 抓 
取 网 页 和 构建 Google 搜索 引擎 的 方法 。 正 如 论文 所 述 ，MapReduce 已 被 用 于 函数 式 编程 语言 ， 
如 Lisp( 它 因 用 来 处 理 列表 而 得 名 [list processing] )。 
在 2007 年 , 一 个 广为人知 的 MapReduce 用 例 是 把 纽约 时 报 从 1851 年 到 1980 年 的 1100 万 
篇 新 闻 文 章 转 成 了 PDF 文件 。 其 目的 是 把 这 些 PDF 文件 公开 给 互联 网 用 户 访问 。 经 过 在 本 地 机 
器 上 开发 和 测试 MapReduce 代码 之 后 ，1100 万 个 PDF 文件 在 一 个 100 节点 的 集群 上 用 了 约 24 
小 时 便 生 成 完毕 [10]。 
MapReduce 计算 模型 已 经 在 Apache Hadoop 中 实现 ， 这 使 得 人 们 可 以 很 容易 地 开发 和 运行 
MapReduce 代码 。 
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10.1.3 Apache Hadoop 


尽管 MapReduce 很 容易 理解 ， 但 是 它 并 不 容易 实现 ， 特 别 是 在 分 布 式 系统 中 。 执 行 一 个 
MapReduce 任务 ( 即 在 特定 数据 上 运行 MapReduce 代码 ) 需要 管理 和 协调 多 个 活动 。 
€ MapReduce 任务 需要 根据 系统 负载 来 调度 。 
e 需要 对 任务 进行 监控 和 管理 ， 以 确保 能 妥善 处 理 遇 到 的 任何 错误 ， 使 得 在 系统 部 分 失 
效 的 情况 下 任务 依然 可 以 继续 执行 。 
e 输入 数据 需要 分 布 到 集群 节点 上 。 
e 处 理 和 输入 数据 的 Map 步 又 需要 分 布 式 地 来 进行 , 最 好 是 在 存放 输入 数据 的 相同 机 器 上 。 
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e 众多 Map 步骤 的 中 间 结 果 需 要 被 收集 起 来 ， 并 提供 给 适当 的 机 器 以 执行 Reduce 步 又。 

e xA RV ] 户 、 其 他 应 用 程序 ， 或 者 其 他 MapReduce 任务 所 使 用 。 

广 运 的 是 ，Apache Hadoop 可 以 做 到 以 上 这 些 。 此 外 ,许多 的 细节 是 对 开发 者 /用 户 透 明 的 。 
接 下 来 讲解 MapReduce 在 Hadoop 中 的 实现 ，Hadoop 是 一 个 由 Apache 软件 基金 会 管理 并 许可 
的 开源 项 目 [11]。 

Hadoop 起 源 于 一 个 叫做 Nutch 的 搜索 引擎 ， 由 Dog Cutting 和 Mike Cafarella 开发 。 基 了 
Google 的 两 篇 论文 [9][12]，MapReduce 和 Googl 文件 系统 (File System ) 的 实现 于 2004 年 被 添 
加 到 了 Nutch 中 。2006 4 , Yahoo! i f Cutting, flt F Nutch 的 代码 开发 了 Hadoop[13]。Hadoop 
的 名 字 来 自 Cutting 孩子 的 毛 绒 玩具 大 和 象 ，Hadoop 的 项 目 图 标 也 源 自 这 只 大 象 。 


Æ 





































































































4 
=> 
= 


































































































T 



















































































ES 


















































































































































T 
S 






















































































1. Hadoop 分 布 式 文件 系统 (HDFS) 
基于 Google File System [12], Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, 
HDFS ) 是 一 个 能 够 将 数据 分 布 到 集群 中 ， 以 利用 MapReduce 并 行 处 理 能 力 的 文件 系统 。HDFS 
常见 文件 系统 〈 比 如 ext3, ext4 和 XFS) 的 蔡 代 。 事 实 上 ，HDEFS 依赖 于 每 个 磁盘 驱动 器 
系统 来 管理 被 存储 到 驱动 器 介质 中 的 数据 。Hadoop Wiki[14] 给 由 了 磁盘 配置 选项 与 考量 
s 
对 于 一 个 给 定 的 文件 ，HDFS 把 文件 分 为 64MB 大 小 的 块 并 存储 在 集群 中 。 如 果 文 件 大 小 
J 300MB, ,， 则 该 文件 被 存储 在 5 个 块 中 : 4 个 64MB 块 和 一 个 44MB 块 。 如 果 文 件 小 于 64MB, 
那么 该 块 大 小 等 于 文件 大 小 。 
只 要 有 可 能 ，HDFS 就 会 试图 把 文件 块 存储 在 不 同 机 器 上 ， 这 样 Map 步骤 可 以 并 行 地 操作 
一 个 文件 的 每 个 块 。 而 且 在 默认 情况 下 ，HDFS 为 每 个 块 创建 三 个 分 散在 集群 中 的 副本 ， 以 在 
发 提供 必要 的 元 余 。 如 果 一 个 机 器 出 现 故障 ，HDFS 将 相关 文件 块 的 可 访问 副本 复制 
到 男 可 用 的 机 器 上 。HDFS 也 是 机 架 感知 的 ， 这 意味 着 它 可 以 把 文件 块 分 布 到 多 个 机 架设 
备 上 ， 以 防止 整个 机 架 故 障 而 导致 数据 不 可 用 。 此 外 , 每 个 文件 块 的 三 个 副本 使 得 Hadoop 可 以 
灵活 地 确定 在 Map 步骤 使 用 哪个 机 器 来 处 理 特定 的 块 。 例 如 ,一 个 闲置 或 未 充分 利用 的 机 器 包 
含 了 要 被 处 理 的 文件 块 ， 则 可 以 调度 这 台 机 器 来 处 理 这 个 数据 块 。 
为 了 管理 数据 访问 ，HDFS 采用 三 个 Java 守护 进程 (后台 进程 ) NameNode, DateNode 和 
Secondary NameNode。NameNode 守护 进程 在 单 台 机 器 上 运行 ， 确 定 并 跟踪 一 个 数据 文件 的 不 
同 块 被 存储 的 位 置 。DataNode 守护 进程 管理 每 台 机 器 上 存储 的 数据 。 如 果 客 户 端 应 用 程序 要 访 
问 存储 在 HDFS 上 的 一 个 特定 文件 ， 该 应 用 程序 可 以 联系 NameNode， 然 后 NameNode 为 该 应 
用 程序 提供 这 个 文件 的 不 同 块 所 在 的 位 置 。 然 后 应 用 程序 就 可 以 与 相应 的 DataNode 通信 来 访问 
文件 了 。 
每 个 DataNode 定期 生成 关于 存储 在 DataNode 上 的 文件 块 的 报告 ， 并 将 
NameNode。 如 果 DataNode 上 的 一 个 或 多 个 块 不 可 访问 ， 那 么 NameNode 需要 确信 
的 一 个 可 访问 副本 被 复制 到 另 一 台 机 器 上 。 出 于 性 能 原因 ，NameNode 驻 留 在 机 器 的 内 存 中 。 
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为 NameNode 对 于 HDFS 的 运行 是 至 关 重 要 的 ， 所 以 NameNode 不 可 用 或 损坏 会 导致 集群 上 
的 数据 都 不 可 用 。 因 此 NameNode 可 能 造成 Hadoop 环境 中 的 单 点 故障 [15]。 为 了 将 NameNode 
失效 的 几率 降 至 最 低 并 提高 性 能 ，NameNode 通常 运行 在 专用 机 器 上 

第 三 个 守护 进程 Secondary NameNode, 提供 了 执行 某 些 NameNode 任务 的 功能 ， 以 减轻 
NameNode 的 负担 。 这 样 的 任务 包括 用 文件 系统 编辑 日 志 的 内 容 来 更 新 文件 系统 映像 。 需 要 重 
点 注意 的 是 ，Secondary NameNode 不 是 NameNode 的 备份 或 元 余 。 当 NameNode 瘫痪 时 ， 必 须 
重新 启动 NameNode， 并 使 用 最 近 的 文件 系统 映像 文件 和 编辑 日 志 的 内 容 来 初始 化 。Hadoop 最 
新 版 本 提供 了 HDFS 的 高 可 用 性 (High Available, HA ) 特性 。 该 特性 可 以 允许 两 个 NameNode: 
一 个 处 于 活动 状态 ; 另 一 个 处 于 待机 状态 。 如 果 活 动 的 NameNode 出 现 故 障 , 待机 的 NameNode 
会 进行 接管 。 使 用 HDFS 的 HA 功能 时 ， 就 不 需要 Secondary NameNode [16]. 
Ed 10.2 中 是 一 个 有 10 台 机 器 的 Hadoop 集群 ， 存 储 了 一 个 有 3 个 HDFS 数据 块 的 大 文件 。 
此 外 ,文件 块 有 三 个 副本 。 运 行 NameNode 和 Secondary NameNode 的 机 器 被 认为 是 主 节点 
(master node )。 因 为 DataNode 会 接受 来 自主 节点 的 命令 ， 所 以 运行 DataNode 的 机 器 被 称 作 工 
人 节点 C worker node )。 












































































































































































































































































































































































































































































































































































































































主 节点 在 两 个 机 架 上 有 8 个 工人 节点 
NameNode DataNode DataNode 
文件 块 1 文件 块 2 文件 块 1 
input_file.txt 
wb Block 1,2,3 
DataNode DataNode 
文件 块 3 文件 块 2 
DataNode DataNode 
Secondary 
NameNode 文件 块 1 文件 块 3 


DataNode DataNode 


文件 块 2 文件 块 3 








图 10.2 存储 在 HDFS 的 文件 


2. 在 Hadoop 中 构建 一 个 MapReduce 任务 
在 10.1.2 市 中 简要 地 描述 了 Hadoop 能 够 运行 MapReduce 任务 。 本 节 将 详细 讲解 如 何在 
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Hadoop 中 运行 MapReduce 任务 。 以 Java 编写 的 一 个 典型 的 MapReduce 程序 包含 3 个 类 :driver、 
mapper 和 reducer. 
driver 类 提供 了 诸如 输入 文件 的 位 置 将 输入 文件 添加 到 map 任务 的 规定 .mapper 和 reducer 
Java 类 的 名 称 ， 以 及 reduce 任务 输出 的 位 置 之 类 的 一 些 细节 。 可 以 在 driver 中 指定 各 种 任务 配 
置 选项 。 例 如 , 在 driver 中 可 以 手动 指定 reducer 的 数量 。 取决 于 MapReduce 任务 的 输出 如 何在 
后 续 的 过 程 中 使 用 ， 这 样 的 选项 是 相当 有 用 的 。 
mapper 类 提供 了 处 理 driver 代码 中 指定 的 输入 文件 的 每 个 数据 块 的 逻辑 。 例 如 在 之 前 提 到 的 
单词 计数 的 MapReduce 示例 中 ， 会 在 数据 块 驻 留 的 工人 节点 上 运行 一 个 map 任务 。 每 个 map 
任务 逐 行 处 理 一 段 文字 ， 把 行 解 析 为 单词 ， 对 于 每 个 词 输出 <word，1> 键 / 值 ， 而 不 管 该 单词 在 
文本 行 里 出 现 了 多 少 次 。 刍 / 值 对 被 临时 存储 在 工人 节点 的 内 存 中 (或 缓存 到 节点 的 磁盘 上 )。 
接 下 来 ,根据 要 运行 的 reducer 的 数量 ， 由 内 置 的 shuffle 和 sort 功能 来 处 理 键 / 值 对 。 在 这 
简 中 ， 只 有 一 个 reducer。 所 以 ,所 有 的 中 间 数 据 都 要 传递 给 它 。 从 各 个 map 任务 的 
渝 出 中 ， 针 对 每 个 唯一 的 键 ， 构建 由 其 在 原 键 / 值 对 中 对 应 出 现 的 值 组 成 的 数组 (在 Java 中 为 列 
表 ), 形成 新 的 键 / 值 对 ( 值 为 数组 )。 同 时 ，Hadoop 会 按 顺 序 将 键 传递 给 每 个 reducer。 在 图 10.3 
HA, <each, (1,1) > 是 被 处 理 的 第 一 个 键 / 值 对 ， 随 后 是 按 字 母 顺序 排列 的 <For,， (1) > ， 然 后 是 
剩余 的 键 / 值 对 ， 直 到 最 后 的 键 / 值 对 传递 给 reducer. TRS “ ) 表示 一 列 值 ， 这 个 例子 中 它 是 
一 个 数组 。 
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«1234, “For each word in each string > 


i Map 


«For, 1» «each, 1» «word, 1» «in, 1» «each, 1» «string, 1> 


i Shuffle and Sort 


<each, (1, 1)> <For, (1)> <in, (1)> <string, (1)> <word, (1)> 


4 Reduce 


<each, 2> 
<For, 1> 
<in, 1> 

<string, 1> 

<word, 1> 





图 10.3 shuffle 和 sort 


般 情 况 下 ， 每 个 reducer 处 理 每 个 键 的 所 有 值 ， 并 根据 reducer 逻辑 的 定义 输出 一 个 键 /全 
对 。 然 后 输出 结果 会 像 其 他 文件 一 样 存储 在 HDFS 上 ， 分 成 64MB 大 小 的 数据 块 ， 并 跨 节点 | 
复制 三 次 。 


3. 在 构建 MapReduce 任务 时 的 其 他 注意 事项 
前 面 的 讨论 阐述 了 在 Hadoop 集群 上 构建 和 运行 MapReduce 任务 的 基本 知识 。 若干 Hadoop 
特性 为 MapReduce 任务 提供 了 更 多 的 功能 。 
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首先 ，combiner 是 一 个 可 能 应 用 到 map 任务 和 shuffle/sort 之 间 的 有 用 选项 。 通 常情 况 下 ， 
combiner 具有 和 reducer 相同 的 处 理 逻 辑 ， 只 是 将 逻辑 应 用 到 每 个 map 任务 的 输出 。 在 单词 计 
数 的 例子 中 ,combiner 计算 了 从 mapper 的 输出 中 每 个 词 出 现 次 数 的 总 和 。 图 10.4 所 示 为 combiner 
是 如 何在 简单 的 单词 计数 示例 中 处 理 一 个 字符 串 的 。 
























































«1234, “For each word in each string "> 


b 


«For, 1» «each, 1» «word, 1» «in, 1» «each, 1» «string, 1» 


4 Combine 


<For, 1> <each, 2> <word, 1> <in, 1> <string, 1> 


4 Shuffle and Sort 





10.4 使 用 combiner 
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图 10.5 所 示 为 partitioner 可 以 把 以 元 





cer 





















































给 一 个 


Xt dis 
































以 辅音 


reducer, i 





ZH 


W 


能 的 <the，1 >4#/{ 
对 。reducer 步 又 仍然 接收 到 每 























d 
( 





存储 、 通 过 网 络 传输 和 处 理 的 中 间 
RE SES reducer 接收 到 的 键 和 相应 1 


«1234, “For each word in each string"» 


V 


TITA map 任务 输出 到 shuffle 和 














J 对 于 一 个 键 ， 
10000, 964, .. 




















AME 











TARE 
reducer 得 到 的 
.，8345 )。 使 用 


LH 


















































map 输出 。 




















列表 。 BH] 





























e qm 


























头 的 每 个 单 











二 


H 3 


发 送 给 另 一 个 reducer。 


«For, 1» «each, 1» «word, 1» «in, 1» «each, 1» «string, 1» 


4 Partition (Shuffle) 
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10.5 ”使 用 一 个 自 定义 的 partitioner 
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任务 在 一 个 长 期 运行 的 reducer 任务 完成 之 前 不 会 结束 。 
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.开发 和 运行 Hadoop MapReduce 程序 

发 Hadoop MapReduce 程序 的 一 种 浓 见 方法 是 使 用 交互 式 开 发 环境 CIDE ) 工具 来 编写 Java 
代码 ， 比 如 Eclipse[17]。 相 比 于 纯 文 本 编辑 器 或 者 命令 行 界面 ， 使 用 IDE 工具 能 更 方便 地 编写 、 编 
译 、 测 试 和 调试 代码 。 典 型 的 MapReduce 程序 包括 三 个 Java 文件 ， 它 们 分 别 对 应 于 driver 代码 、 
map 代码 、reduce 代码 。 另 外 ， 也 可 以 为 combiner 或 自 定 义 的 partitioner 编写 Java 文件 。Java 代码 
被 编译 并 存储 为 Java Archive (JAR) 文件 。 该 JAR 文件 然后 针对 指定 的 HDFS 输入 文件 运行 。 
除了 了 解 提 交 MapReduce 任务 的 机 制 以 外 ，Hadoop 开发 新 人 遇 到 的 3 个 关键 挑战 分 别 为 : 
定义 使 用 MapReduce 计算 模型 的 代码 逻辑 ; 学 习 Apache Hadoop Java 类 、 方 法 和 接口 ; 在 Java 
中 实现 driver, map 和 reduce 国 数 。 对 于 Hadoop 开发 新 人 来 说 , 拥有 一 些 Java 的 相关 经 验 可 以 
使 其 更 专注 于 学 习 Hadoop 和 编写 MapReduce 任务 。 

对 于 偏好 Java 之 外 的 其 他 编程 语言 的 用 户 来 说 ， 还 有 一 些 其 他 选择 。 一 个 选择 是 使 用 
Hadoop Steaming API， 它 允许 用 户 不 需要 懂 Java[18] 就 可 以 编写 和 运行 Hadoop 任务 。 然 而 一 些 
其 他 编程 语言 的 知识 ， 例 如 Python, C 或 Ruby， 还 是 必要 的 。Apache Hadoop 提供 了 
Hadoop-Streaming.jar 文件 ， 它 接收 输入 /输出 文件 的 HDFS 路 径 ， 以 及 实现 了 map 和 reduce FÉ 
数 的 文件 路 径 。 
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在 准备 和 运行 Hadoop streaming 任务 时 ， 还 有 下 面 一 些 重要 的 考虑 因素 。 
e 虽然 shuffle 和 sort 的 输出 按照 键 排序 的 顺序 发 给 了 reducer， 但 是 reducer 并 不 会 将 市 



















































































应 的 值 作为 列表 来 接收 ; 相反 ， 它 接收 的 是 单独 的 键 / 值 对 。reduce 代码 必须 监控 键 的 

值 变 化 并 适当 地 处 理 新 的 键 的 值 。 

€ map 和 reduce 代码 必须 已 经 是 可 执行 的 形式 ， 或 者 必要 的 解释 器 必须 已 经 安装 到 了 每 个 工人 市 
EE 

€ map 和 reduce 代码 必须 已 经 驻 留 在 每 个 工人 节点 上 ， 或 者 在 提交 任务 时 必须 提供 代码 
的 位 置 。 在 后 一 种 情况 下 ， 代 码 被 复制 到 每 个 工人 节点 。 





















































































































































































































































































































































e 有 些 函 数 ， 比 如 partitioner, (5251538 H] Java 来 编写 。 
e 输入 和 输出 都 通过 stdin 和 stdout 处 理 。stderr 能 够 跟踪 任务 的 状态 ， 实 现 计数 需 功 能 ， 
































以 及 向 前 端 显示 报告 执行 问题 [18]. 
€ steaming API 的 性 能 比 使 用 Java 编写 的 相似 功能 要 差 。 
个 蔡 代 的 方法 是 使 用 Hadoop pipes 机 制 许 使 用 已 编译 的 C++ 代码 来 实现 map 和 
reduce 函数 。 使 用 C++ 的 优势 是 ， 有 大 量 现成 的 数值 库 (numerical library ) [19] 可 以 直接 在 代码 
中 使 用 。 
为 了 直接 处 理 HDFS 里 的 数据 ,一 个 选择 是 使 用 Apache Hadoop 提供 的 CAPI (libhdfs ) 或 
Java API。 这 些 API 允许 在 MapReduce 程序 之 外 读 写 HDFS 数据 文件 [20]。 这 种 方法 在 下 面 
况 下 可 能 比较 有 用 : 通过 检查 输入 来 尝试 调试 MapReduce 程序 , 或 者 目标 是 在 运行 MapReduce 
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任务 之 前 先 转换 HDFS 数据 。 


5. Yet Another Resource Negotiator (YARN) 
Apache Hadoop 一 直 在 持续 开发 与 频繁 更 新 。 一 个 重要 的 改变 是 将 MapReduce 的 功能 从 
分 布 式 环境 中 管理 任务 运行 和 相关 责任 的 功能 中 分 离 出 来 。 这 个 重 写 有 时 称 为 MapReduce 
2.0， 或 是 Yet Another Resource Negotiator ( YARN )。YARN 把 集群 的 资源 管理 从 对 运行 在 集 
群 上 任务 的 调度 和 监控 中 分 离 了 出 来 。YARN 的 实现 使 得 在 Hadoop 环境 中 运行 非 MapReduce 
计算 模型 成 为 可 能 。 例 如 整体 同步 并 行 (Bulk Synchronous Parallel, BSP ) [21] 模 型 可 能 比 
MapReduce[22] 更 适合 图 形 处 理 。 实 现 了 BSP 模型 的 Apache Hama 是 使 用 YARN 功能 的 其 中 
个 应 用 。 
YARN 接替 了 JobTracker 和 TaskTracker 守护 进程 的 功能 。 在 Hadoop 的 早期 版 本 中 ， 
MapReduce 任务 被 提交 给 JobTracker 守护 进程 。JobTracker 和 NameNode 通信 来 决定 哪个 工人 










































































































































































































































































































































































节点 存储 MapReduce 作业 所 需 的 数据 块 。 JobTracker 然后 将 map 和 reduce 任务 分 配给 运行 在 
人 市 点 上 的 TaskTracker。 为 了 优化 性 能 ， 每 个 任务 最 好 是 分 配给 存储 输入 数据 块 的 工人 节点 。 
TaskTracker 与 JobTracker 定期 通信 ， 以 了 解 其 执行 任务 的 状态 。 如 果 一 个 任务 显示 已 经 失败 ， 
JobTracker 可 以 将 任务 分 配给 另 一 个 不 同 的 TaskTracker。 
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到 目前 为 止 ， 本 章 已 经 概述 了 Apache Hadoop， 包 括 其 HDFS 实现 ， 以 及 od W 
模型 。Hadoop 的 普及 众生 了 许多 专 有 的 和 开源 的 工具 ， 从 而 使 得 Apache Hadoop 更 容易 使 用 ， 
提供 了 额外 的 功能 和 特性 。 本 节 将 介绍 下 列 与 Hadoop 相关 的 Apache 项 目 。 
© Pig: 高 级 数据 ? = 
€ Hive: 类 SQL 数据 访问 。 
@ Mahout: 分 析 工 具 。 
HBase: 实时 数据 读 写 。 
通过 隐藏 MapReduce 程序 开发 的 细节 ，Pig 和 Hive 允许 开发 人 员 编 写 高 层次 代码 ， 然 后 后 
续 转 换 成 一 个 或 多 个 MapReduce 程序 。 因 为 MapReduce 是 专门 针对 批 处 理 的 , 因此 Pig 和 Hive 
也 专门 针对 批量 处 理 用 例 。 
当 Hadoop 处 理 完 一 个 数据 集 ，Mahonut 提供 了 一 些 能 够 在 Hadoop 环境 中 分 析 数 据 的 工具 。 
例如 ， 第 4 章 中 讲解 的 k 均值 聚 类 分 析 就 可 以 使 用 Mahout 执行 。 
不 同 于 Pig 和 Hive 的 批量 处 理 ，HBase 能 够 实时 地 读 写 存储 在 Hadoop 环境 中 的 数据 。 这 
种 实时 访问 的 能 力 部 分 是 通过 将 数据 存储 于 内 存 和 HDFS 中 实现 的 。 同 时 ，HBase 无 需 依赖 
MapReduce 来 访问 HBase 中 的 数据 。HBase 的 设计 和 操作 明显 不 同 于 关系 数据 库 和 其 他 的 
Hadoop 工具 ， 稍 后 会 具体 描述 。 
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10.2.1 Pig 


Apache Pig 由 数据 流 语言 Pig Latin 和 一 个 执行 Pig 代码 的 环境 所 组 成 。 使 用 Pig 的 主要 好 
是 可 以 在 分 布 式 系 统 中 使 用 MapReduce 的 强大 功能 ， 同 时 简化 开发 和 执行 MapReduce H 
执行 Pig 命令 时 , 后 台 运 行 的 是 MapReduce 任务 , 而 这 在 大 多 数 情况 下 对 用 户 来 说 是 透明 的 
这 个 位 于 Hadoop 之 上 的 抽象 层 可 以 简化 Hadoop 程序 开发 ,从 而 让 MapReduce 获得 更 多 的 用 户 

与 Hadoop 一 样 ，Pig 于 2006 年 起 源 于 Yahoo!, F 2007 年 转移 到 Apache 软件 基金 会 ， 
于 2008 年 作为 Apache Hadoop 子 项 目 发 布 了 第 一 个 版 本 。 随 着 时 间 推 移 ，Pig 不 断 发 展 ， 
贯 具有 三 个 主要 特点 : 易 编程 、 后 台 代 码 优化 和 可 扩展 性 [24]。 
在 安装 完 Apache 和 Pig 后 , Pig 的 基本 操作 包括 在 命令 行 提示 符 下 输入 pig 进入 到 Pig 的 执 
行 环境 ， 然 后 在 grunt 提示 符 下 输入 一 系列 指令 。 

这 里 显示 了 一 个 Pig 的 命令 示例 。 








































































































































































































































































































































































































































































































$ pig 
grunt> records = LOAD '/user/customer.txt' AS 
(cust id:INT, first name:CHARARRAY, 
last name:CHARARRAY, 
email, address:CHARARRAY); 
grunt» filtered records - FILTER records 
BY email address matches '.*@isp.com'; 
grunt» STORE filtered records INTO '/user/isp customers'; 
grunt» quit 


$ 








在 第 一 个 grunt 提示 符 下 , Pig 变量 records 读 入 一 个 有 4 个 字段 : cust id, first name, last name 
和 email address 的 文本 文件 。 接 下 来 ，records 中 email address 以 @isp.com 结尾 的 记录 被 分 配 
给 变量 filtered_records ， 指 代 邮 件 地 址 来 自 特定 ISP d 使 用 STORE 命令 ， 把 过 滤 后 的 记 
录 写 入 到 HDFS 目录 isp_customer。 最 后 ,执行 QUIT 命令 退出 Pig 交互 环境 。 或者， 这 些 单独 
的 Pig 命令 也 可 以 写 入 到 fter_scriptpig， 然 后 在 命令 行 中 提交 ， 如 下 所 示 。 

































































































































































































































































$ pig filter script.pig 


Pig 命令 会 在 后 台 转 换 为 一 个 或 多 个 MapReduce 任务 。 因 此 ，Pig 简化 了 MapReduce 任务 的 编 
写 , 可 以 让 用 户 快速 地 开发 .测试 和 调式 Pig 代码 。 在 这 个 特定 的 例子 中 ,MapReduce 任务 会 在 STORE 
命令 运行 以 后 被 初始 化 。 在 STORE 命令 之 前 ，Pig 已 经 建立 了 一 个 执行 计划 ， 但 是 还 没有 初始 化 
MapReduce 进程 。 


Pig 提供 了 儿 种 常见 的 数据 操作 的 执行 语句 , 比如 两 个 或 多 个 文件 ( 表 ) 之 间 的 内 连 或 外 连 ， 
这 与 典型 的 关系 数据 库 一 样 。 在 Hadoop MapReduce 中 实现 这 些 连 接 (join ) 是 相当 复杂 的 。Pig 
还 提供 了 GROUP BY 功能 ,该 功能 与 SQL 中 的 GROUP BY 功能 类 似 。 第 11 章 会 介绍 使 用 Group 
BY 和 其 他 SQL 语句 的 更 多 细节 。 


Pig 的 男 外 一 个 特点 是 提供 了 很 多 内 置 函数 , 可 以 在 Pig 代码 中 直接 使 用 。 表 10.1 按 分 类 列 















































































































































































































































































































































































































































































































































































































































































































































10.2 Hadoop 生态 系统 
出 了 几 个 有 用 的 函数 。 
表 10.1 内 置 的 Pig 函数 

求 值 读 取 / 存 储 数学 字符 日 期 时 间 
AVG BinStorage() ABS INDEXOF AddDuration 
CONCAT JsonLoader CEIL LAST_INDEX_OF CurrentTime 
COUNT JsonStorage COS, ACOS | LCFORST DaysBetween 
COUNT_STAR PigDump EXP LOWER GetDay 
DIFF PigStorage FLOOR REGEX_EXTRACT GetHour 
IsEmpty TextLoader LOG. LOGIO | REPLACE GetMinute 
MAX HBaseStorage RANDOM STRSPLIT GetMonth 
MIN ROUND SUBSTRING GetWeek 
SIZE SIN, ASIN TRIM GetWeek Year 
SUM SQRT UCFIRST Get Year 
TOKENIZE TAN, ATAN UPPER MinutesBetween 

SubtractDuration 

ToDate 

x05 P3 ee SAE ft ee SAA AJ AE pig.apache.org 网 站 上 找到 [25]。 

就 扩展 性 而 言 ，Pig 允许 在 其 环境 中 执行 用 户 定 义 函 数 ( UDF )。 因 此 ， 一 些 复杂 的 操作 可 
以 使 用 用 户 选 择 的 语言 进行 编码 ， 然 后 在 Pig 环境 中 执行 。 用 户 可 以 在 托管 在 Apache 站 点 上 的 
资源 Piggybank 代码 库 中 共享 他 们 的 UDF[26]。 随 着 时 间 的 推移 ， 最 有 用 的 UDF 有 可 能 会 被 包 
含 到 Pig 的 内 置 函数 中 。 





























10.2.2 Hive 


与 Pig 类 似 ，Apache Hive 允许 


































































































] 户 无 需 编写 MapReduce 代码 就 可 以 处 理 数据 。Hive 与 Pig 


































































































































































































































































































































































































































































































的 一 个 关键 区 别 是 ，Hive 语言 HiveQL (Hive Query Language ) 类 似 于 结构 化 查询 语句 (SQL), 
而 不 是 脚本 语言 。 
Hive 表 的 结构 由 行 和 列 构成 。 行 通常 对 应 于 一 些 记 录 、 事 务 或 者 特定 实体 (例如 客户 ) 
的 详细 内 容 。 相 应 的 列 值 代表 每 行 的 不 同属 性 或 特征 。Hadoop 及 其 生态 系统 可 以 为 非 结构 化 
数据 生成 某 种 结构 。 因 此 ， 如 果 表 结构 是 一 种 重新 结构 化 数据 的 适当 方式 ， 那 么 Hive 是 一 个 
好 工具 。 
另外 , 如果 用 户 具有 SQL 使 用 经 验 而 且 数 据 已 经 在 HDFS 中 , 则 他 可 以 考虑 使 用 Hive。 使 
] Hive 的 男 一 个 考虑 可 能 是 ， 如 何 将 数据 添加 到 Hive 表 中 或 者 做 更 新 。 如 果 数 据 只 是 定期 地 
添加 到 表 中 , Hive 可 以 胜任 该 工作 , 但 是 如 果 还 需要 在 表 中 更 新 数据 , 则 有 必要 考虑 其 他 工具 ， 
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例如 HBase。HBase 会 在 下 一 节 中 讨论 。 
尽管 在 某 些 应 用 中 ，Hive 的 性 能 可 能 好 于 常规 的 SQL 数据 库 , 但 Hive 不 适用 于 实时 查询 。 
一 个 Hive 查询 首先 要 转换 成 一 个 MapReduce 任务 ， 然 后 该 任务 被 提交 给 Hadoop 集群 。 因 此 ， 
查询 在 执行 时 不 得 不 与 其 他 提交 的 任务 竞争 资源 。 与 Pig 一 样 ，Hive 也 适用 于 批量 处 理 。 再 次 
强调 ，HBase 可 能 是 实时 查询 的 更 好 选择 。 
对 上 述 的 讨论 进行 总 结 ， 在 下 列 情况 存在 的 时 候 ， 可 以 考虑 使 用 Hive。 
e 数据 很 适合 表 结构 。 
e 数据 已 经 存在 于 HDFS 中 (注意 ， 非 HDFS 文件 也 可 以 加 载 到 Hive Æ ) 
e 开发 人 员 熟 悉 SQL 编程 与 查询 。 
e 

e 














































































































































































































































































































































































































希望 基于 时 间 来 划分 数据 ( 例如 ， 将 日 常 更 新 添加 到 Hive KH )。 
可 接受 批量 处 理 。 
接 下 来 的 讨论 涵盖 一 些 HiveQL 的 基础 。 在 命令 行 提示 符 下 ,用户 直 接 输入 hive 进入 到 Hive 




































































































































































交互 环境 
$ hive 
hive» 
在 这 个 环境 中 ， 用 户 可 以 定义 新 表 、 对 其 进行 查询 ， 或 者 汇总 其 内 容 。 为 了 演示 如 何 使 用 

































































HiveQL, 以 下 的 例子 定义 了 一 个 新 的 Hive 表 来 存放 客户 数据 , 将 现 有 的 HDFS 数据 载 入 到 Hive 
表 中 ， 然 后 查询 表 。 
第 一 步 是 创建 customer 表 ， 用 来 存放 客户 详情 为 该 表 会 用 一 个 现 有 的 HDFS 文件 (该 































































































PPR Bll) 来 填充 ， 因 此 在 创建 表 查 询 中 对 格式 进行 了 指定 。 
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hive> create table customer ( 
cust_id bigint, 
first_name string, 
last_name string, 
email_address string) 
row format delimited 
fields terminated by '\t'; 


执行 下 列 的 HiveQL 查询 ， 对 新 创建 的 customer 表 中 的 记录 进行 计数 。 因 为 表 在 当前 是 
的 , 因此 查询 返回 的 结果 是 0( 输出 最 后 一 行 ) 该 查询 在 转换 为 一 个 MapReduce 任务 并 运行 时 ， 
会 生成 一 个 map 任务 和 一 个 reduce 任务 来 执行 。 


hive» select count(*) from customer; 






































































































































Total MapReduce jobs = 1 


Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
Starting Job - job 1394125045435 0001, Tracking URL - 
http://pivhdsne:8088/proxy/application 1394125045435 0001/ 
Kill Command = /usr/lib/gphd/hadoop/bin/hadoop job 
-kill job 1394125045435 0001 


10.2 Hadoop 生态 系统 





Hadoop job information for Stage-1: number of mappers: 1; 
number of reducers: 1 

2014-03-06 12:30:23,542 Stage-1 map = 0$, reduce - 0$ 

2014-03-06 12:30:36,586 Stage-1 map = 100%, reduce = 0%, 
Cumulative CPU 1.71 sec 

2014-03-06 12:30:48,500 Stage-1 map = 100%, reduce = 100%, 
Cumulative CPU 3.76 sec 

MapReduce Total cumulative CPU time: 3 seconds 760 msec 

Ended Job = job 1394125045435 0001 

MapReduce Jobs Launched: 

Job 0: Map: 1 Reduce: 1 Cumulative CPU: 3.76 sec HDFS Read: 242 
HDFS Write: 2 SUCCESS 

Total MapReduce CPU Time Spent: 3 seconds 760 msec 

OK 

0 

















当 查 询 大 型 表 的 时 候 ，Hive 的 性 能 和 扩展 性 要 比 大 多 数 常规 数据 库 查 询 好 。 如 上 文 所 述 ， 
Hive 将 HiveQL 查询 转换 为 MapReduce 任务 ， 然 后 把 大 型 数据 集 切 片 进行 并 行 处 理 。 
要 将 HDFS 文件 customer.txt 中 的 内 容 加 载 到 customer 表 , 只 需要 提供 文件 的 HDFS 目录 路 
径 即 可 。 


hive» load data inpath '/user/customer.txt' into table customer; 
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AAI AR T customer 表 的 前 三 行 。 














hive» select * from customer limit 3; 


34567678 Mary Jones mary.jonesQisp.com 
897572388 Harry Schmidt harry.schmidt@isp.com 
89976576 Tom Smith thomas.smith@another_isp.com 















































经 常 需要 基于 一 个 或 多 个 列 来 连接 一 个 或 多 个 Hive 表 。 下面 的 示例 提供 了 将 customer KE 
接 到 另外 一 个 存储 客户 订单 详情 的 orders 表 的 机 制 。orders 表 中 没有 存 所 有 的 客户 详情 ， 而 
只 存 了 相应 的 cust id. 
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hive» select o.order number, o.order date, c.* 
from orders o inner join customer c 
on o.cust id = c.cust id 
where c.email address = 'mary.jones@isp.com'; 
Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks not specified. Estimated from input data size: 1 
Starting Job = job 1394125045435 0002, Tracking URL = 
http://pivhdsne:8088/proxy/application 1394125045435 0002/ 
Kill Command = /usr/lib/gphd/hadoop/bin/hadoop job 
-kill job 1394125045435 0002 
Hadoop job information for Stage-1: number of mappers: 2; 
number of reducers: 1 
2014-03-06 13:26:20,277 Stage-1 map = 0$, reduce = 0$ 
2014-03-06 13:26:42,568 Stage-1 map 50$, reduce = 0%, 
Cumulative CPU 4.23 sec 
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2014-03-06 13:26:43,637 Stage-1 map = 100$,reduce = 0%, 
Cumulative CPU 4.79 sec 
2014-03-06 13:26:52,658 Stage-1 map - 100$,reduce - 100$, 
Cumulative CPU 7.07 sec 
MapReduce Total cumulative CPU time: 7 seconds 70 msec 
Ended Job = job 1394125045435 0002 
MapReduce Jobs Launched: 
Job 0: Map: 2 Reduce: 1 Cumulative CPU: 7.07 sec HDFS Read: 602 
HDFS Write: 140 SUCCESS 
Total MapReduce CPU Time Spent: 7 seconds 70 msec 
OK 
X234825811 2013-11-15 17:08:43 34567678 Mary Jones mary. jones@isp.com 
X234823904 2013-11-04 12:53:19 34567678 Mary Jones mary. jones@isp.com 


连接 的 用 法 和 SQL 概览 会 在 第 11 章 中 讲解 。 要 退出 Hive 交互 环境 ， 使 用 quit 命令 。 


hive» quit; 


$ 
















































































on 








在 交互 环境 中 运行 Hive 的 另 一 种 方法 是 把 HiveQL 语句 写 入 到 脚本 中 ( 例如 ,my_script.sql ), 


然后 执行 脚本 文件 ， 如 下 所 示 。 
$ hive -f my_script.sql 


上 述 的 Hive 介绍 简单 讲解 了 基本 的 HiveQL 命令 和 语句 。 建 议 读 者 适时 研究 和 利用 其 他 
Hive 功能 ， 例 如 外 部 表 (external table )、 解 释 计 划 (explain plan )、 分 区 (partition )， 以 及 将 数 
据 添 加 到 Hive 表 中 的 INSERT INTO 等 命令 。 

以 下 是 一 些 Hive 用 例 。 

e HDFS 数据 的 探索 性 或 即席 分 析 : 数据 可 以 进行 查询 、 转 换 ， 并 导出 

R 语言 。 

e 报表 系统 、 仪 表盘 或 数据 仓库 (比如 HBase) 的 数据 馈 入 : 可 以 定期 运行 Hive 查询 ， 
来 提供 这 类 定期 的 数据 馈 入 。 
各 外 部 的 结构 化 数据 与 HDFS 中 的 数据 合并 : Hadoop 非常 适合 处 理 非 结 构 化 数据 ,但 
是 RDBMS (比如 Oracle 或 SQL Server) 中 经 常会 存在 结构 化 数据 ， 这 些 数据 需要 与 
HDFS 中 的 数据 连接 。RDBMS 中 的 数据 可 以 定期 添加 到 Hive x, ^ HDFS 现 有 的 数 
据 一 起 用 于 查询 。 








































































































































































































到 分 析 工 具 ， 比 如 
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10.2.3 HBase 
与 面向 批 处 理应 用 的 Pig 和 Hive 不 同 ，Apache HBase 能 够 实时 读 写 具 有 数 十 亿 行 、 数 


























































































































厅 列 的 数据 集 。 为 了 描述 HBase 和 关系 数据 库 的 区 别 ， 本 节 介 绍 了 HBase 实现 和 使 用 方面 的 
2n o 
HBase 是 基于 Google 2006 年 的 Bigtable 论文 设计 的 。 该 论文 将 Bigtable 描述 为 “用 于 管理 















































































































































结构 化 数据 的 分 布 式 存储 系统 ”。Google 使 用 Bigtable 存储 其 网 站 产品 相关 的 数据 , 比如 提供 全 
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世界 卫星 图 像 的 Google Earth, Bigtable 还 用 来 存储 网 页 爬虫 的 搜索 结果 、 个 人 搜索 优化 数据 ， 
以 及 网 站 点 击 流 数 据 。Bigtable 建立 在 Google File System 的 上 层 ， 它 同样 使 用 了 MapReduce 来 
处 理 数据 的 出 入 。 例如 , 把 点 击 流 的 原始 数据 存储 在 Bigtable 中 。 然 后 定期 运行 一 个 MapReduce 
任务 来 处 理 和 汇总 新 添加 的 点 击 流 数 据 ， 并 把 结果 存储 到 第 二 个 Bigtable 中 [27]。 

Hbase 的 开发 始 于 2006 年 ，2007 年 末 作 为 Hadoop 发 布 版 的 一 部 分 被 纳入 其 中 。 在 2010 
年 5 H, HBase 成 为 Apache 顶级 项 目 。2010 EHR, Facebook 开始 在 其 用 户 消 息 基础 架 
构 中 使 用 HBase， 以 支持 3 亿 5 和 干 万 用 户 每 月 发 送 150 亿 条 消息 [28]。 






















































































































































































































































































































































































1. HBase 架构 与 数据 模型 

HBase 是 一 个 分 布 于 集群 节点 上 的 数据 存储 。 与 Hadoop VAR FAHD 
HBase 建立 在 HDFS 之 上 ， 并 通过 将 工作 负载 分 散 到 分 布 式 集群 中 的 大 
问 速 度 。 一 个 HBase 表 包 含 行 和 列 。 然 而 ， 一 个 HBase 表 还 包含 了 一 个 
保持 列 随 时 间 变 化 的 不 同 值 。 
为 了 摘 述 这 第 三 个 维度 ， 来 看 一 个 简单 的 例子 。 对 于 在 线 客户 ， 他 可 能 保存 了 几 个 收 货 地 
址 。 所 以 行 由 客户 编号 来 表示 。 表 中 的 一 个 列表 示 收 货 地 址 。 一 个 客户 的 收 货 地 址 的 值 会 添 
加 到 客户 所 在 行 的 收 货 地 址 列 ， 同 时 还 要 添加 一 个 时 间 稚 ， 这 个 时 间 惟 代表 客户 上 一 次 使 用 该 
收 货 地 址 的 时 间 。 

客户 在 一 个 线 上 零售 商 结 账 时 ， 网 站 可 以 使 用 这 样 的 一 个 表 来 获取 与 显示 客户 先前 的 收 货 
地 址 。 如 图 10.6 所 示 ， 客 户 可 以 选择 合适 的 地 址 、 添 加 新 地 址 或 删除 任何 不 再 相关 的 地 址 。 
当然 ， 除 了 客户 的 收 货 地 址 以 外 ， 其 他 的 客户 信息 ， 比 如 地 址 、 首 选项 、 账 单 信用 / 欠 
球 和 客户 优惠 (比如, 免 运 费 ) 也 必须 被 存储 。 对 于 此 类 应 用 , 需要 实时 访问 。 因 此 , 使 用 Pig、 
Hive 或 Hadoop MapReduce 的 批量 处 理 功 能 并 不 是 一 个 合理 的 实现 方法 。 下 面 将 介绍 HBase 是 
如 何 存 储 数 据 和 提供 实时 读 写 访问 的 。 


Checkout (Step 2 of 4) 



























































的 Apache 项 RE, 
量 市 点 来 实现 实时 的 访 
第 3 维度 : 版 本 ， 用 来 
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Choose a shipping address: 
pping T Last Used 


E] 1600 Pennsylvania Avenue NW F 
Washington DC, 20500 USA [Edit] [Delete] 15-Apr-2014 
E| London SW1A 1AA, United Kingdom Edit | Delete| 15-Mar-2014 
E| amm, saat TST 282001, India Edit | Delete 14-Feb-2014 


Add a new address | 
«c» 











图 10.6 ”在 结账 时 选择 一 个 收 货 地 址 
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之 前 提 到 ，HBase 建立 在 HDFS 之 上 。HBase 使 用 键 / 值 结构 来 存储 HBase 7 
每 个 值 是 某 行 的 某 个 特定 版 本 的 列 值 ， 每 个 键 包括 如 下 元 素 [29]: 


的 内 容 ， 其 中 






















































































第 10 章 高 级 分 析 技 术 与 工具 : MapReduce 和 Hadoop 



































































































































































































































e 人行 长 度 ; 

e 行 ( 有 时 候 也 称 为 行 键 ); 

e JKE; 

e Nik; 

e 列 限 定 符 ; 

e hk; 

e 键 类 型 。 

fT (row) 是 用 来 访问 HBase 表 内 容 的 主要 属性 。 行 是 数据 在 集群 中 进行 分 布 和 对 HBase 
表 的 查询 能 快速 获取 所 需 元 素 的 基础 。 因 此 ， 行 的 结构 或 布局 需要 根据 数据 访问 的 模式 来 专门 
设计 。 所 以 , 一 个 HBase 表 不 会 适合 所 有 的 即席 查询 和 分 析 。 换 句 话说， 了解 HBase 将 会 如 何 
使 用 很 重要 ; 理解 了 表 的 使 用 方式 后 ， 有 助 于 更 好 地 定义 行 结构 和 表 。 










































































例如 ， 如 果 HBase 表 用 来 存储 电子 邮件 的 内 容 ， 行 可 以 构造 为 电子 邮件 地 址 和 发 送 时 间 的 
ts TA) HBase 会 是 基于 行 存 储 的 ， 对 于 给 定 的 电子 邮件 地 址 来 获取 电子 邮件 的 内 容 会 相当 
有 效 ， 但 是 获取 指定 日 期 范围 内 的 电子 邮件 时 ， 将 花费 相当 长 的 时 间 。 稍 后 有 关 区 域 (region ) 
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的 讨论 会 提供 更 多 HBase 如 何 存储 数据 的 详细 内 容 。 
HBase 表 中 的 列 (column ) 列 族 (column family ) 与 列 限 定 符 (column qualifier ) 联合 
A 
mr 





































































































指定 的 。 列 族 提供 了 高 层次 的 列 限定 符 分 组 。 在 前 面 的 收 货 地 址 示例 中 ， 行 可 以 包 
order_number， 订 单 细节 可 以 使 用 诸如 shipping. address, billing address, order date 等 列 限定 符 
存储 到 列 族 下 。 在 HBase 中 , 列 被 表示 为 列 族 : 列 限定 符 。 这 个 示例 中 , 列 orders:shipping_address 
指 的 是 订单 收 货 地 址 。 
单元 格 (cell) 是 指 表 中 某 行 的 某 列 。 版 本 ( version ) 有 时 候 称 为 时 间 惟 aay) 它 
可 以 用 来 保持 HBase 表 中 一 个 单元 格 内 容 的 不 同 值 。 在 将 一 个 记录 写 入 到 寻 尽管 用 户 可 
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头 自 定义 一 个 版 本 值 , 但 是 一 个 典型 的 HBase 实现 是 使 用 HBase 的 默认 值 ， ENT 前 的 系统 时 间 。 
在 Java 中 , 时 间 惟 是 通过 System.getCurrentTimeMillisO 获 取 的 , 即 自 1970 年 1 月 1 日 以 来 的 毫 
秒 数 。 因 为 很 可 能 只 需要 一 个 单元 格 的 最 近 版 本 ， 所 以 单元 格 按照 版 本 的 降序 进行 存储 。 如 果 
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新 用 程序 要 求 单元 格 按照 其 创建 时 间 升 序 来 存储 和 检索 ， 那 么 方法 是 使 用 Java 的 
Long.MAX_VALUE - System.getCurrentTimeMillisO 作 为 版 本 号 .Long.MAX_VALUE 对 应 于 Java 
中 最 大 的 长 整 型 值 。 这 个 示例 中 ， 版 本 值 还 是 按照 降序 来 存储 和 排序 。 
键 类 型 (key type ) 用 来 识别 一 个 特定 的 键 是 对 应 于 HBase 表 的 写 操作 ,还 是 删除 操作 。 从 
技术 上 来 说 ，HBase 表 的 一 个 删除 操作 是 通过 对 表 的 写 入 来 完成 的 。 键 类 型 表示 写 入 的 目的 。 
删除 操作 将 一 个 逻辑 删除 标记 (tombstone marker) 写 入 到 表 中 ， 表 示 对 于 相应 的 行 和 列 来 说 ， 
所 有 等 于 或 旧 于 指定 时 间 截 的 单元 格 版 本 都 需要 被 删除 。 

一 日 安装 完 HBase 环境 ， 用 户 可 以 通过 在 命令 提示 符 下 输入 hbase shell 进入 到 HBase shell 
环境 。 然 后 创建 一 个 HBase 表 my_table， 如 下 所 示 。 





























































































































































































































































































































































































































10.2 Hadoop 生态 系统 





$ hbase shell 
hbase» create 'my table', 'cfl', 'cf2', 
SPLITS -»['250000','500000','750000' 


表 中 定义 了 cfl 和 cf2 两 个 列 族 。SPLITS 选项 指定 了 表 是 如 何 基于 键 的 行 部 分 来 划分 的 。 
这 个 例子 中 ， 表 被 划分 为 4 个 部 分 ， 称 为 区 域 (region )。 小 于 250000 的 行 添加 到 第 一 个 区 域 ， 
从 250000 到 500000 添加 到 第 二 个 区 域 ， 其 余 划 分 类 似 。 这 些 划 分 提供 了 实现 实时 读 写 访问 的 
基本 机 制 。 在 这 个 例子 中 , my table 被 划分 为 4 个 区 域 , 每 个 区 域 位 于 Hadoop 集群 中 各 自 的 
和 人 节点 上 。 因 此 ， 随 着 表 的 增 大 或 者 用 户 负 载 的 增加 ， 可 以 增加 额外 的 工人 节点 和 区 域 划 分 ， 
以 适当 地 扩展 集群 。 读 和 写 是 基于 行 中 的 内 容 进行 的 。HBase 可 以 快速 地 确定 合适 的 区 域 来 执 
行 读 或 写 的 命令 。 关 于 区 域 及 其 实现 的 更 多 细节 将 会 在 后 文 讨论 。 




































































































































































































































































































































































































































































































































































只 有 列 族 (不 是 列 限定 符 ) 需要 在 创建 HBase 表 时 定义 。 新 的 列 限定 符 可 以 在 数据 写 入 至 
HBase 表 的 时 候 定义 。 在 大 多 数 关 系数 据 库 中 ， 数 据 库 管理 员 需 要 事先 定义 列 及 其 数据 类 型 ， 
HBase 表 的 列 可 以 随 着 需求 的 出 现 随 时 进行 添加 。 这 种 灵活 性 是 HBase 的 强项 之 一 ， 在 处 理 








































































































FE 结构 化 数据 时 很 有 用 。 随 着 时 间 的 变化 ， 非 结构 化 数据 很 可 能 会 发 生变 化 。 因 此 有 具有 新 列 修 
和 符 的 新 内 容 必 须 被 提取 出 来 ， 添 加 到 HBase 表 中 。 

列 族 有 助 于 定义 表 在 实际 中 如 何 存储 。HBase 表 会 按 区 域 划 分 ,每 个 区 域 会 划分 成 分 别 存 
WE HDFS 中 的 列 族 。 在 Linux 命令 行 提 示 符 下 ， 运 行 hadoop fs -ls -R /hbase， 将 显示 HBase 
表 my_table 在 HBase 中 是 如 何 存 储 的 。 
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$ hadoop fs -1s -R /hbase 





0 2014-02-28 16:40 /hbase/my table/028ed22e02ad07d24d473344cd53allfb4 





243 2014-02-28 16:40 /hbase/my table/028ed22e02ad074d2d73344cd53allfb4/ 
.regioninfo 

0 2014-02-28 16:40 /hbase/my table/028ed22e02ad07d24d73344cd53a1l1lfb4/ 
CETL 

0 2014-02-28 16:40 /hbase/my table/028ed22e02ad07d24d73344cd53allfb4/ 
ct2 

0 2014-02-28 16:40 /hbase/my_table/2327b09784889e6198909d8b8£342289 

255 2014-02-28 16:40 /hbase/my table/2327009784889e61989094808f£342289/ 











.regioninfo 
0 2014-02-28 16:40 /hbase/my_table/2327b09784889e6198909d8b8£342289/ 
cf1 
0 2014-02-28 16:40 /hbase/my_table/2327b09784889e6198909d8b8£342289/ 
cf2 


0 2014-02-28 16:40 /hbase/my_table/4b4fc9ad951297efe2b9b38640f7a5fd 
267 2014-02-28 16:40 /hbase/my_table/4b4fc9ad951297efe2b9b38640f7a5fd/ 





.regioninfo 

0 2014-02-28 16:40 /hbase/my table/4b4fc9ad951297efe25095038640£7a5f£d/ 
CEL 

0 2014-02-28 16:40 /hbase/my_table/4b4fc9ad951297efe2b9b38640f7a5fd/ 
cf2 




















0 2014-02-28 16:40 /hbase/my table/e40be0371f£43135e36ea67edec6e31e3 
267 2014-02-28 16:40 /hbase/my table/e40be0371f£43135e36ea67edec6e31e3/ 
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.regioninfo 
0 2014-02-28 16:40 /hbase/my table/e40be0371f43135e36ea67edec6e31e3/ 
cfl 


0 2014-02-28 16:40 /hbase/my table/e40be0371f£43135e36ea67edec6e31e3/ 
cf2 


可 以 看 到 ， 在 /hbase/mytable 目录 下 面 创 建 了 4 个 子 目 录 。 每 个 录 使 用 各 自 的 区 域名 称 
(包括 起 始 行 和 结束 行 ) 的 哈 希 值 来 命名 。 在 这 些 目 录 下 面 是 列 族 的 目录 ， 这 个 例子 中 是 cfl 和 
cf2， 以 及 .regioninfo 文件 ， 该 文件 中 包含 有 关 区 域 维护 的 几 个 选项 和 属性 。 列 族 的 目录 存储 
相应 的 列 限定 符 的 键 和 值 。 一 个 列 族 中 的 列 限 定 符 应 该 很 少 与 男 外 一 个 列 族 中 的 列 限定 符 一 起 
被 读 取 。 之 所 以 将 列 族 分 离 ， 是 为 了 找到 所 请 求 的 数据 时 ， 能 够 最 小 化 HBase 不 得 不 访问 的 无 
关 数 据 量 。 从 两 个 列 族 中 读 取 数据 意味 着 必须 扫描 多 个 目录 来 找 出 所 有 需要 的 列 ， 这 违背 了 创 
建 列 族 的 最 初 目的 。 在 这 样 的 情况 下 ， 只 用 一 个 列 族 可 能 是 更 好 的 表 设 计 。 在 实践 中 ， 列 族 的 
数量 应 不 超过 两 个 或 三 个 。 否 则 ， 可 能 会 产生 性 能 问题 [30]。 
下 面 的 操作 使 用 put 命令 将 数据 添加 a 到 表 中 。 在 这 3 个 put 操作 中 , datal 和 data2 分 别 被 加 
入 到 列 族 cfl 中 的 列 限定 符 cql 和 cq2。data3 被 加 入 到 列 族 cf2 中 的 列 限 定 符 cq3。 在 每 个 操作 
中 ， 使 用 行 键 000700 指定 了 列 。 


hbase» put 'my table', '000700', 'cfl:cql', 'datal' 
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0 row(s) in 0.0030 seconds 
hbase» put 'my table', '000700', 'cfl:cqg2', 'data2' 
0 row(s) in 0.0030 seconds 
hbase» put 'my table', '000700', 'cf2:cq3', 'data3' 


0 row(s) in 0.0040 seconds 


通过 使 用 get 命令 可 以 从 HBase 表 中 获取 数据 。 前 
日 起 的 毫秒 数 。 


hbase» get 'my table', '000700', 'cf2:ocq3' 










































































提 到 ， 时 间 截 默认 为 自 1970 年 1 月 1 








COLUMN CELL 
cf2:cq3 timestamp-1393866138714, value-data3 
1 row(s) in 0.0350 seconds 


在 默认 情况 下 , get 命令 返回 最 近 的 版 本 。 为 了 进行 演示 , 在 同样 的 行 和 列 上 执行 第 二 次 put 
操作 后 ， 紧 接着 的 get 命令 提供 了 最 近 添 加 的 data4 的 值 。 


hbase» put 'my table', '000700', 'cf2:cq3', 'data4' 








































































































0 row(s) in 0.0040 seconds 


hbase» get 'my table', '000700', 'cf2:ocq3' 


COLUMN CELL 
cf2:cq3 timestamp-1393866431669, value-data4 
1 row(s) in 0.0080 seconds 


通过 指定 要 获取 的 版 本 数量 ，get 操作 可 以 返 
号 进行 降序 排列 。 
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个 版 本 。 这 




















COLUMN CELL 
cf2:cq3 timestamp-1393866431669, value-data4 
cf2:cq3 timestamp-1393866138714, value-data3 
2 row(s) in 1.0200 seconds 
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ec T pa 


hbase» get 'my table', '000700', (COLUMN => 'cf2:cq3', VERSIONS 


明示 了 单元 格 按照 版 本 








=> 2} 


一 个 与 get 命令 类 似 的 操作 是 scan。 一 个 scan 命令 获取 STARTROW 和 STOPROW 之 间 的 









































所 有 行 ， 但 是 不 包含 STOPROW。 注 意 ， 如 果 STOPROW i 




















会 被 返 Al 


























ROW COLUMN+CELL 




















000600 column=cfl:cq2, timestamp-1393866792008, value=data5 
000700 column=cfl:cql, timestamp=1393866105687, value=datal 
000700 column=cfl:cq2, timestamp=1393866122073, value=data2 
000700 column=cf2:cq3, timestamp=1393866431669, value=data4 


2 row(s) in 0.0400 seconds 























下 一 个 操作 是 通过 指定 时 间 戳 来 删除 行为 000700 列 为 cf2 : 





























入 置 为 000700, 




















IRZ HU fr 000600 








hbase» scan 'my table', (STARTROW => '000600', STOPROW -»'000800') 














hbase» delete 'my table', '000700', 'cf2:cq3', 1393866138714 


0 row(s) in 0.0110 seconds 








cq3 的 最 老 条 目 。 































































































删除 了 。 








重复 前 面 获取 两 个 版 本 的 get 操作 , 结果 只 返回 了 单元 格 的 最 新 版 





hbase» get 'my table', '000700', (COLUMN => 'cf2:cq3', VERSIONS 


COLUMN CELL 
cf2:cq3 timestamp-1393866431669, value-data4 
1 row(s) in 0.0130 seconds 











本 。 E, 旧版 本 已 经 被 























然而 ， 将 RAW 选项 设置 为 true 后 运行 scan 操作 ， 显 示 
























































己 删 除 的 条 






































=> 2} 











依然 存在 。 EE EZIN 

















的 行 演示 了 如 何 创建 逻辑 删除 标记 ， 用 来 通知 默认 的 get 和 scan 操作 忽略 特定 行 和 列 的 所 有 较 



































eG 老 的 单元 Raves o 


hbase» scan 'my table', (RAW => true, VERSIONS => 2, 
STARTROW => '000700'} 








ROW COLUMN+CELL 


000700 column=cfl:cql, timestamp=1393866105687, value=datal 
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000700 column=cfl:cq2, timestamp-1393866122073, value-data2 
000700 column=cf2:cq3, timestamp-1393866431669, value-data4 
000700 column=cf2:cq3, timestamp-1393866138714, type-DeleteColumn 
000700 column=cf2:cq3, timestamp-1393866138714, value-data3 
1 row(s) in 0.0370 seconds 


什么 时 候 被 删除 的 条 目 会 永久 移 除 呢 ? 为 了 理解 这 个 过 程 ， 有 必要 理解 HBase 如 何 处 理 操 
作 以 及 如 何 实现 实时 读 写 访问 。 前 面 提 到 ， 一 个 HBase 表 会 基于 行 划 分 成 多 个 区 域 。 每 个 区 域 
个 工人 节点 来 维护 。 在 对 特定 区 域 进行 put 和 delete 操作 的 过 程 中 , 工人 节点 首先 将 命令 写 
区 域 的 预 写 式 日 志 (Write Ahead Log, WAL ) 文件 。WAL 能 够 确保 在 系统 发 生 故 障 时 操作 
不 丢失 。 下 一 步 ， 操 作 的 结果 会 存储 在 工人 节点 内 存 中 的 MemStore 仓库 [31]。 

将 条 目 写 入 MemStore 保证 了 所 需 的 实时 访问 。 只 要 已 经 写 入 ,任何 客户 端 都 可 以 访问 
MemStore 中 的 条 目 。 当 MemStore 尺寸 增 大 或 是 到 达 预 定 的 时 间 间 隔 ， 已 排序 的 MemStore 会 
写 入 (刷新 ) 到 HDFS 中 的 一 个 HFile 文件 ， 它 也 位 于 同一 个 工人 节点 。 一 个 典型 的 HBase 实 
现在 MemStore 的 内 容 略 小 于 HDFS 块 的 大 小 时 ， 就 会 刷新 MemStore。 随 着 时 间 的 推移 ， 这 些 
WC 牛 会 积累 起 来 ， 工 人 节点 会 执行 次 压缩 (minor compaction ) 来 对 大 量 的 刷新 文件 进行 排 
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与 此 同时 ， 工 人 节点 收 到 的 任何 get 或 scan 请 求 会 检查 这 些 可 能 的 存储 位 置 。 
€ MemStore. 
€ MemStore 刷新 产生 的 HFile。 

e 次 压缩 产生 的 HFile。 

对 此 ， 在 同一 行 上 进行 一 个 delete 操作 ， 紧 接着 进行 一 个 get 操作 ,会 在 MemStore 中 和 在 










































































































































































相应 的 先前 版 本 (存在 于 比较 小 的 HFile 或 是 先前 已 合并 的 HFile H1) 中 发 现 逻 辑 删除 符 。get 
命令 能 够 被 瞬间 处 理 然后 返回 适当 的 数据 给 客户 端 。 












































随 着 时 间 的 推移 ， 较 小 的 HFile 会 不 断 累 积 ， 工 人 市 点 运行 主 压缩 ( major compaction )， 将 
较 小 的 HFile 合并 到 一 个 大 HFile 中 。 在 主 压缩 期 间 , 已 删除 的 条 目 和 逻辑 删除 标记 会 从 文件 中 
永久 移 除 。 

2. HBase 的 用 例 

如 Google 的 Bigtable 论文 所 述 ， 数 据 存储 (比如 HBase ) 的 一 个 常见 用 例 是 存储 网 页 息 虫 
的 结果 。 使 用 该 论文 中 的 示例 , fT com.cnn.www 对 应 于 站 点 的 URL: www.cnn.com. 一 个 anchor 
列 族 被 用 来 保存 含有 行 中 站 点 链接 的 所 有 站 点 的 URL. 一 个 不 太 明 显 的 实现 是 ,这些 anchor 中 
的 站 点 URL 是 作为 列 限定 符 来 使 用 的 ,例如 , 如果 sportsillustrated.cnn.com 提供 了 www.cnn.com 
的 链接 ， 则 列 限定 符 就 是 sportsillustrated.cnn.com。 包含 www.cnn.com 链接 的 其 他 网 站 则 作为 额 
外 的 列 限 定 符 。 单 元 格 中 存储 的 值 是 与 包含 链接 的 网 站 相关 的 文本 。 以 下 在 HBase 中 对 CNN 
数据 执行 get 操作 。 


hbase» get 'web table', 'com.cnn.www', (VERSIONS => 2} 


























































































































































































































































































































































































































































































































COLUMN CELL 
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anchor:sportsillustrated.cnn.com timestamp-1380224620597, value=cnn 
anchor:sportsillustrated.cnn.com timestamp-1380224000001, value=cnn.com 
anchor:edition.cnn.com timestamp-1380224620597, value-cnn 


针对 每 个 包含 www.enn.com 链接 的 网 站 会 返回 额外 的 结果 。 最 后 ， 需 要 解释 一 下 行使 用 
com.cnn.www， 而 不 是 www.cnn.com 的 原因 。 通 过 翻转 URL， 那 些 与 互联 网 顶级 域名 对 应 的 后 绥 
(.com, .gov 或 .net ) 可 以 按 序 存储 。 同样, 域名 的 后 面部 分 (cnn ) 也 按 序 存储 。 所 以 , 所 有 cnn.com 
网 站 都 可 以 通过 使 用 扫描 ( 带 有 com.cnn 的 STARTROW 和 适当 的 STOPROW ) 来 获取 。 

这 个 简单 的 用 例 说 明了 几 个 重点 。 首 先 ，HBase 中 可 以 拥有 十 亿 行 、 百 万 列 的 表格 。 截 至 
2014 年 2 A, 已 经 识别 出 了 9 亿 2 干 万 个 站 点 [32]。 其 次 , 行 需要 根据 数据 的 访问 方式 来 定义 。 
一 个 HBase 表 需 要 基于 特定 目的 和 数据 的 读 写 模式 来 合理 地 计划 和 设计 。 最 后 ， 使 用 列 限定 符 
来 存储 数据 要 比 将 其 直接 存储 到 单元 格 中 更 有 好 处 。 在 这 个 例子 中 ， 当 有 新 的 托管 网 站 建立 起 
来 时 ， 它 们 就 成 为 了 新 的 列 限定 符 。 

第 二 个 用 例 是 消息 的 存储 与 搜索 。 在 2010 年 ，Facebook 使 用 HBase 实现 了 这 样 一 个 系统 。 
当时 , Facebook 的 系统 每 个 月 处 理 超 过 150 亿 的 用 户 到 用 户 消息 , VA 1200 亿 的 聊天 消息 [33]。 
以 下 描述 了 Facebook 为 用 户 收 件 箱 建 立 搜索 索引 的 方法 。 使 用 每 个 用 户 消息 中 的 每 个 词 ， 设计 
了 如 下 所 示 的 一 个 HBase 表 。 

e 行 被 定义 为 用 户 的 人 D。 

e 列 限定 符 被 设置 为 消息 中 出 现 的 一 个 单词 。 

e JEDE ID. 

e 单元 格 内 容 是 单词 在 消息 中 的 偏 移 量 。 

这 种 实现 可 以 允许 Facebook 在 搜索 框 中 提供 自动 完成 功能 ， 并 快速 地 返回 查询 结果 ， 而 
最 新 的 消息 显示 在 最 顶端 。 只 要 消息 ID 随 着 时 间 不 断 增长 ,以 降序 存储 的 版 本 可 以 确保 最 新 的 
星子 邮件 最 先 返 回 给 用 户 [34] 。 
这 两 个 用 例 有 助 于 说 明基 于 数据 的 访问 模式 来 预先 设计 HBase 表 的 重要 性 。 此 外 ， 这 些 例 
子 还 说 明了 能 够 通过 添加 新 列 限 定 符 的 方式 来 按 需 评 加 新 列 的 好 处 。 而 在 典型 的 RDBMS 实现 
中 ， 要 想 添加 新 的 列 ， 则 需要 DBA 来 调整 表 的 结构 。 
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3. 使 用 HBase 的 其 他 考量 
除了 示例 中 提 到 的 HBase 表 设 计 以 外 ， 以 下 的 考量 对 于 成 功 使 用 HBase 也 是 至 关 重 要 的 。 
€ Java API: 前 文中 介绍 了 儿 种 HBase 的 shell 命令 和 操作 。shell 命令 可 用 于 在 HBase 环 
境 中 探索 数据 ， 以 及 说 明 命令 的 用 处 。 然 而 , 在 生产 环境 中 , 可 以 使 用 HBase Java API 
来 编写 所 需 的 操作 和 执行 操作 的 条 件 。 
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e 。 列 族 和 列 限 定 符 的 名 字 : 确保 列 族 和 列 限 定 符 的 名 字 越 短 越 好 很 重要 。 尽 管 短 名 字 往 
往 违 背 了 一 个 传统 观点 ， 即 要 使 用 有 意义 的 撕 述 性 名 字 ， 但 是 列 族 和 列 限定 符 的 名 字 
是 作为 每 个 键 / 值 对 中 的 键 的 一 部 分 来 存储 的 。 因 此 ， 为 每 一 行 中 的 名 字 每 谎 加 一 个 额 























































































































外 的 字 节 ， 都 会 导致 其 所 需 的 存储 空间 猛 增 。 而 且 在 默认 情况 下 ， 每 一 个 HDFS 块 会 
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在 Hadoop 集群 上 复制 三 次 ， 因 此 所 需要 的 存储 空间 也 会 增加 3 倍 。 
@ 定义 行 : 行 的 定义 是 HBase 表 设 计 的 最 重要 方面 之 一 。 一 般 情况 下 ， 这 是 在 HBase 7 
上 执行 读 / 写 操作 的 主要 机 制 。 在 构建 行 时 ， 需 要 让 所 请 求 的 列 可 以 被 轻易 而 快速 地 检 
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索 到 。 
e 避免 创建 连续 行 : 习 然 的 倾向 是 按 顺 序 创建 行 。 例 如 ， 如 果 行 键 是 客户 识别 号 但 ， 

































































而 且 客 户 识 别 号 码 是 按 顺 序 创建 ， 那 么 HBase 可 能 会 遇 到 这 样 一 种 情况 ， 即 所 有 的 新 

j 户 和 他 们 的 数据 都 被 号 入 到 同一 个 区 域 ， 而 不 是 如 预期 的 那样 ， 将 工作 负载 分 布 到 

集群 上 [35]。 人 解决 这 类 问题 的 一 个 方法 是 给 顺序 号 随机 分 配 一 个 前 级 。 

e 版 本 控制 : 表 创建 期 间或 后 期 修改 时 定义 的 HBase 表 选 项 可 以 控制 单元 格 内 容 的 某 个 
版 本 的 存在 时 长 。 存 在 选项 存 时 间 (TimeToLive，TTL )， 版 本 号 旧 于 该 选项 

的 所 有 版 本 将 被 删除 。 也 存在 用 来 维护 最 大 版 本 号 和 最 小 版 本 号 的 选项 。 

€ Zookeeper: HBase 使 用 Apache Zookeeper 来 协作 和 管理 在 分 布 式 集群 上 运行 的 多 个 区 

域 。 总 的 来 说 ，Zookeeper 是 “一 个 维护 配置 信息 、 命 名 、 提 供 分 布 式 同步 和 组 服务 的 

集中 式 服务 。 所 有 这 类 服务 以 某 种 形式 被 分 布 式 应 用 程序 使 用 ”[36]。HBase 使 用 ] 

Zookeeper， 而 不 是 自行 构建 协作 服务 。 有 一 些 与 HBase 相关 的 Zookeeper 配置 事项 也 


需要 注意 [37]。 





































































































































































































































































































































































































































































































































































































































































































10.2.4 Mahout 


本 章 的 大 部 分 内 容 关 注 的 是 使 用 Apache Hadoop 及 其 生态 系统 来 处 理 、 结 构 化 和 存储 大 型 
数据 集 。 数 据 集 存 储 在 HDFS 中 后 ， 下 一 步 就 是 对 其 应 用 第 4 章 到 第 9 章 中 介绍 的 分 析 技 术 。 
诸如 R 语言 这 类 工具 可 以 用 于 分 析 相 对 较 小 的 数据 集 ， 但 是 对 存储 在 Hadoop 中 的 大 型 数据 集 

能 会 遇 到 性 能 问题 。 为 了 在 Hadoop 环境 中 应 用 分 析 技 术 ， 一 种 选择 是 使 用 Apache Mahout。 
这 个 Apache 项 目 提供 了 Java PE, 以 便 以 可 扩展 的 方式 将 分 析 技术 应 用 到 大 数据 中 。mahout ( Jl 
象 师 ) 是 指 能 控制 大 象 的 人 。Apache Mahout 就 是 一 个 引导 Hadoop 这 个 大 象 产生 有 意义 的 分 析 
结果 的 工具 集 。 

Mahout fe? 
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技术 的 算法 ， 这 些 技 术 分 为 如 下 三 个 类 别 [38]。 





的 Java 代码 实现 了 若干 
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10.2 Hadoop 生态 系统 











e 模糊 k 均值 ; 
e 期 望 最 大 化 (EM )。 

推荐 系统 /协同 过 滤 : 

e ， 非 分 布 式 推荐 系统 ; 

e ”基于 项 的 分 布 式 协同 过 渡 。 















































带 有 HAWQ 的 Pivotal HD Enterprise 

] 户 可 以 直接 从 www.apache.org 网 站 下 载 并 安装 Apache Hadoop 和 Hadoop EAA. B 
一 种 选择 是 下 载 各 种 Apache Hadoop 项 目的 商业 发 行 版 。 这 些 发 布 版 通常 包括 额外 的 用 户 功能 
以 及 集群 管理 工具 。Pivotal 是 一 家 提供 名 为 Pivotal HD Enterprise 的 Hadoop 商业 发 行 版 的 公司 ， 
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图 10.7 Pivotal HD Enterprise 组 件 

















Pivotal HD Enterprise 中 包含 了 本 章 介绍 过 的 几 个 Apache 系统 组 件 ,也 包含 如 下 的 Apache 软件 
€ Oozie: 管理 Apache Hadoop 任务 的 工作 流 调度 系统 。 

€ Sqoop: 高 效 地 在 Hadoop 与 关系 数据 库 之 间 移 动 数据 。 

€ Flume: 收集 与 聚合 流 数 据 ( 例如 ， 日 志 数据 )。 

Pivotal 提供 的 额外 功能 如 下 [39]。 

€ Command Center 是 一 个 允许 用 户 通 过 Web 图 形 界面 安装 、 配 置 、 监 控 与 管理 Hadoop 
组 件 和 服务 的 强大 的 集群 管理 工具 。 它 通过 能 即时 查看 集群 健康 状况 和 关键 性 能 度量 
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WER MAE, HET Hadoop 集群 的 安装 、 升 级 和 扩展 。 用 户 可 查看 整个 Pivotal HD 
集群 中 关于 主机 、 应 用 程序 和 任务 指标 的 实时 与 历史 信息 。Command Center 还 提供 了 
命令 行 (CLI) 与 Web 服务 API， 以 集成 到 企业 监控 服务 中 。 
€ 基于 Open MPI (Message Passing Interface， 消 息 传输 接口 ) 的 Graphlab 是 一 个 广泛 
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使 用 和 成 熟 的 高 性 能 分 布 式 图 计算 框架 ， 它 可 以 处 理 具有 数 十 亿 顶 点 和 边 的 图 。 它 现 
在 可 以 原生 地 运行 在 Hadoop 集群 内 ， 避 免 了 昂贵 的 数据 移动 代价 。 这 使 得 数据 科学 家 
和 分 析 师 可 以 在 Hadoop 中 利用 流行 的 算法 (比如 Page Rank、 协 同 过 滤 ， 以 及 计算 机 
视觉 ) 来 进行 数据 分 析 ， 而 不 用 把 数据 复制 到 其 他 地 方 导 致 延长 数据 科学 周期 。 通 过 
与 用 于 关系 型 数据 的 MADIib 机 器 学 习 算 法 相 结合 , Pivotal HD 成 为 世界 上 领先 的 机 器 
学 习 高 级 分 析 平 台 。 
€ Hadoop 虚拟 化 扩展 (Hadoop Virtualization Extensions, HVE ) 插件 可 以 让 Hadoop 
感知 虚拟 化 的 拓扑 结构 ， 并 能 在 虚拟 环境 中 动态 扩展 Hadoop Wio Pivotal HD 是 第 一 
个 包含 AVE 插件 的 Hadoop 发 行 版 , 这 使 得 可 以 在 企业 环境 中 轻松 部 署 Hadoop。 通 过 
HVE, Pivotal HD 可 以 在 云 中 实现 真正 弹性 的 可 扩展 性 ， 并 加 强 前 置 应 用 的 部 署 选项 。 
€ HAWQ (HAdoop With Query ) 将 SQL 加 入 到 Hadoop 中 ， 以 加 速 数据 分 析 项 目 、 简 
开发， 同时 可 以 提高 生产 力 、 扩 展 Hadoop 的 功能 ， 并 降低 成 本 。HAWQ 通过 添加 
丰富 成 熟 的 SQL 并行 处 理 组 件 来 实现 Hadoop 查询 ,而 且 比 市 面 上 任何 一 种 基于 Hadoop 
的 查询 都 更 快 。HAWQ 利用 现 有 的 商业 智能 和 分 析 产 品 ， 以 及 用 户 现 有 的 SQL 技能 ， 
为 大 量 的 查询 类 型 与 工作 负载 带 来 了 超过 100 倍 的 性 能 改善 。 





























































































































































































































































































































































































































































































































































































































































































































10.3 NoSQL 
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NoSQL( Not only Structured Query language ) 是 J 是 些 非 结构 化 数据 存储 的 术语 。 
如 前 面 所 述 ，HBase 是 一 种 将 键 / 值 存储 在 列 族 中 的 理想 工具 。 一 般 情 况 下 ， 随 着 数据 的 增加 ， 
NoSQL 的 解决 方案 可 以 通过 简单 地 在 分 布 式 系统 中 添加 更 多 的 机 器 进行 扩展 。 以 下 讲述 J 
NoSQL 工具 的 4 个 主要 分 类 和 一 些 例 子 [40]。 
键 / 值 存储 (key/value store) 包含 的 数据 ( 值 ) 可 以 简单 地 通过 一 个 给 定 的 标识 符 ( 键 ) 来 
访问 。 在 讲解 MapReduce 时 提 到 ， 键 可 以 很 复杂 。 在 键 / 值 存储 中 ,没有 限定 如 何 使 用 数据 ; BE 
/ 值 存储 的 用 户 需 要 自己 维护 和 利用 处 理 逻 辑 来 从 键 和 值 中 提取 有 用 的 元 素 。 下面 是 一 些 键 / 值 存 
储 的 用 例 。 

e 使 用 客户 登录 ID 作为 键 ， 值 包含 客户 的 首选 项 。 

e 使 用 Web 会 话 ID 作为 键 , 值 包含 会 话 期 间 捕获 的 所 有 信息 。 
当 键 / 值 对 的 值 是 一 个 文件 而 且 该 文件 是 自 描述 型 的 时 ( 例如 ，JSON 或 XML), 文档 存储 
( document store ) 就 非常 有 用 。 文 档 自 身 的 结构 可 以 帮助 查询 或 自 定义 展现 文档 内 容 。 因 为 文档 是 
习 描 述 型 的 , 所 以 文档 存储 提供 的 功能 比 键 / 值 存储 更 多 。 例 如 , 文档 存储 可 以 创建 索引 来 加 速 搜索 
文档 ， 否 则 就 要 检查 存储 中 的 每 一 个 文档 。 文 档 存储 可 用 于 以 下 操作 。 

e 网页 的 内 容 管理 。 

e 对 日 志 数 据 进行 网 站 分 析 。 

列 族 存 储 (column family store〉 对 稀 玲 数据 集 非 常 
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j。 稀 玻 数 据 集中 的 记录 具有 数 干 列 ， 
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但 往往 仅 有 几 列 有 条 目 。 键 / 值 概念 在 这 里 仍然 适用 , 但 在 这 种 情况 下 ， 键 是 与 一 个 列 的 集合 进行 
关联 。 在 该 集合 中 ， 相 关 的 列 被 分 组 为 列 族 。 例 如 ， 年 龄 、 性 别 、 收 入 和 教育 列 可 以 被 分 组 为 人 
口 列 族 。 列 族 存 储 在 下 列 情况 下 很 有 用 。 

e 存储 和 呈现 博客 条 目 、 标 记 、 阅 读者 的 反馈 。 

e 存储 和 更 新 各 种 网 页 度量 和 计数 器 。 

图 数据 库 (graph database) 适用 于 例如 网 络 这 样 的 用 例 ， 在 网 络 中 存在 一 些 项 C 人 或 六 
页 链接 ), 而 且 这 些 项 之 间 也 存在 关系 。 虽 然 也 可 以 在 关系 数据 库 中 将 图 存储 为 树 , 但 是 在 浏览 、 
缩放 和 添加 新 的 关系 时 会 相当 麻烦 。 图 数据 库 有 助 于 克服 这 些 障碍 ， 经 过 优化 可 以 快速 地 遍历 
到 ( 从 网 络 中 的 一 项 移动 到 到 网 络 中 的 男 一 项 )。 下 面 是 图 数据 库 实现 的 例子 

@ Facebook 和 LinkedIn 等 社交 网 络 。 

e mr 个 或 多 个 地 点 所 用 时 间 的 地 理 空间 应 用 ， 例 如 快递 和 交通 系统 。 
通常 一 样 ， 对 特定 数据 存储 的 选择 应 
下 的 优秀 功能 ， 但 是 该 功能 可 能 是 
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该 基于 功能 和 性 能 上 的 需求 。 特定 的 存储 可 能 具备 某 方 


以 损失 其 他 功能 或 性 能 为 代价 的 。 
表 10.2 NoSQL 数据 存储 例子 








































































































分 类 数据 存储 网 站 
键 / 值 Redis redis.io 
Voldemort www.project-voldemort.com/voldemort 
文档 CouchDB couchdb.apache.org 
MongoDB www.mongodb.org 
列 族 Cassandra cassandra.apache.org 
HBase hbase.apache.org/ 
| FlockDB github.com/twitter/flockdb 
Neo4j www.neo4j.org 








10.4 总 结 


本 童 讨论 了 MapReduce 计算 模型 及 其 在 大 数据 分 析 中 的 应 用 。 具 体 而 言 ， 本 童 讨论 
MapReduce 在 Apache Hadoop 中 的 实现 。 在 Hadoop 中 ，MapReduce 和 用 于 分 布 式 数 据 存 储 的 
Hadoop 分 布 式 文件 系统 (HDFS ) 配合 使 用 。 在 集群 上 运行 MapReduce 任务 使 得 人 们 可 以 并 行 处 
HE PB 级 或 EB 级 的 数据 。 此 外 ， 通 过 在 集群 中 添加 额外 的 机 器 ，Hadoop 可 以 随 着 数据 量 的 增长 
而 扩展 。 
本 章 讨 论 了 Hadoop 生态 系统 内 的 若干 Apache 项 目 。 通 过 提供 高 层次 的 编程 语言 来 执行 党 
见 的 数据 处 理 任 务 ， 比 如 筛选 、 连 接 数 据 集 和 重 构 数 据 ，Apache Pig 和 Hive 对 用 户 隐藏 了 底层 
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的 MapReduce 逻辑 ,从 而 简化 了 代码 的 开发 ,一 旦 数据 在 Hadoop 集 群 中 就 绪 , 就 可 以 使 用 Apache 
Mahout 执行 诸如 肾 类 、 分 类 和 协同 过 滤 这 样 的 数据 分 析 。 
Apache Hadoop 中 的 MapReduce 和 目前 为 止 所 提 到 的 Hadoop 生态 系统 中 的 项 目 在 批量 处 理 
方面 相当 强大 。 当 需要 实时 处 理 时 (包括 读 写 操作 )，HBase 是 选择 。HBase 使 用 HDFS 在 
集群 中 存储 大 量 的 数据 ， 但 它 在 内 存 中 维护 数据 最 新 的 更 新 ， 以 确保 最 新 数据 的 实时 可 用 性 。 
Hadoop 的 MapReduce、Pig 和 Hive 是 可 以 处 理 各 种 任务 的 通用 工具 , 而 HBase 更 多 地 是 一 个 专 
的 工具 。 数 据 可 以 以 易于 理解 的 方式 从 HBase 中 获取 ， 或 写 入 到 HBase。 
HBase 属于 NoSQL 数据 存储 ， 它 当前 仍 处 于 开发 之 中 ， 旨 在 解决 具体 的 大 数据 用 例 。 维 护 
和 遍历 社交 网 络 图 的 需求 印证 了 关系 数据 库 有 时 候 并 不 是 数据 存储 的 最 佳 选 择 。 然 而 ， 关 系数 
据 库 和 SQL 仍然 是 强大 上 旦 常用 的 工具 ， 第 11 章 中 将 更 详细 地 介绍 。 

















































































































































































































































































































































































































































































































































































































































































































10.5 练习 


1， 研 究 并 记录 Hadoop 的 其 他 用 例 和 实际 的 实施 。 

2， 比 较 和 对 比 Hadoop, Pig, Hive 和 HBase。 列 出 每 个 工具 集 的 优点 和 缺点 。 研 究 并 总 结 
每 个 工具 集 已 经 公开 的 三 个 用 例 。 

练习 3 到 练习 5 个 需要 一 些 编程 的 背景 以 及 一 个 Hadoop 工作 环境 。War and Peace 小 说 可 
从 http://onlinebooks.library.upenn.edu 下 载 ， 将 其 作为 这 些 练习 的 数据 集 。 然 而 ， 也 可 以 使 用 其 
他 数据 集 代 替 。 记 录 所 有 的 数据 处 理 步骤 。 

3. 在 Hadoop 中 使 用 MapReduce 对 指定 的 数据 集 执 行 单词 计数 。 

4. 使 用 Pig 对 指定 的 数据 集 执行 单词 计数 。 

5. 使 用 Hive 对 指定 的 数据 集 执行 单词 计数 。 
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数据 库 内 分 析 (in-database analytics ) 是 一 个 用 来 描述 在 数据 仓库 中 对 数据 进行 处 理 的 广义 
术语 。 在 先前 的 许多 R 例子 中 ， 数 据 是 从 数据 源 中 提取 出 来 然后 加 载 到 R 中 。 数 据 库 内 分 析 的 
个 优势 是 它 不 需要 将 数据 移动 到 分 析 工 具 中 。 同 时 ， 通 过 在 数据 库 内 进行 分 析 ， 有 可 能 可 以 
获得 几乎 实时 的 结果 。 数 据 库 内 分 析 的 应 用 包括 信用 卡 交易 欺诈 检测 、 产 品 推荐 ， 以 及 针对 特 
定 用 户 的 网 页 广告 投放 。 
一 个 流行 的 开源 数据 库 是 PostgreSQL。 该 名 字 引 用 了 一 个 重要 的 称 为 结构 化 查询 语言 
( Structured Query Language, SQL ) 的 数据 库 内 分 析 语言 。 Te : ek 的 高 级 
主题 。 本 章 提供 的 SQL 示例 代码 通过 了 Greenplum 数据 库 4.1.1.1 SE 
PostgreSQL 8.2.15。 然 而 ， 本 章 所 探讨 的 概念 也 适用 于 其 他 SQL 环境 。 


11.1 9QL 基本 要 素 


作为 关系 数据 库 管 理 系统 (RDBMS ) 一 部 分 的 关系 数据 库 互 之 间 存 在 关系 的 表 来 组 
织 数 据 。 图 11.1 显示 了 5 张 表 之 间 的 关系 ， 这 些 表 用 于 存储 一 家 电子 商务 零售 商 的 订单 细节 。 
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K orders 包含 了 每 个 订单 交易 的 记录 。 每 条 记录 都 包含 了 已 下 订单 的 product_id、 用 来 表示 
PURA P customer. id， 以 及 order_datetime 等 数据 元 素 。 另 外 4 张 表 提供 了 有 关 订 购物 品 和 
客户 的 附加 细节 。 在 图 11.1 中 ， 表 之 间 的 线 说 明了 表 之 间 的 关系 。 例 如 ，customer 表 中 的 客户 




















































































































11.4 SQL 基本 要 素 






























































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































的 first name ( 名)、last name ( E ) 和 gender (性 别 ) 可 以 基于 两 表 中 相等 customer. id 的 关系 
与 orders 记录 相关 联 。 
虽然 我 们 可 以 建 一 张 更 大 的 表 来 存储 所 有 的 订单 和 客户 细节 ， 但 是 使 用 5 张 表 有 其 优点 。 
第 一 个 优点 是 节省 存储 空间 。 与 其 在 orders 表 中 存储 长 度 可 能 有 几 百 字 节 的 产品 名 字 ， 不 
如 使 用 更 短 的 product, id (可 能 只 有 几 个 字 节 ) 来 存储 产品 名 字 。 
男 一 个 优点 是 容易 进行 变更 与 修正 。 在 这 个 例子 中 ， 表 category 用 来 对 每 个 产品 进行 分 类 。 
如 果 发 现 一 个 错误 的 类 别 被 分 配 到 一 个 特定 的 产品 ， 则 只 需要 更 新 product 表 中 的 category. id 
即 可 。 如 果 没 有 product 和 category 表 ， 就 可 能 需要 更 新 order 表 中 成 二 上 万 条 的 记录 。 
第 三 个 优点 是 ， 产 品 可 以 在 订单 生成 之 前 添加 到 数据 库 中 。 与 之 相似 ， 在 预计 到 在 线 零 售 
新 后 续 需 要 添加 全 新 的 产品 线 时 ， 可 以 为 其 创建 新 的 类 别 。 
在 关系 数据 库 的 设计 中 ， 不 倾向 于 跨 多 条 记录 复制 数据 ， 比 如 客户 名 称 。 减 少 这 种 重复 的 
过 程 称 为 规范 化 (normalization )。 重 要 的 是 ， 要 认识 到 针对 事务 处 理 而 设计 的 数据 库 在 用 于 分 
析 目 的 时 ， 可 能 不 是 最 佳 的 。 事 务 型 数据 库 常 对 处 理 插 入 新 记录 或 更 新 现 有 的 记录 进行 优化 ， 
日 没有 对 执行 即席 查询 进行 特别 优化 。 因 此 在 设计 分 析 数 据 仓库 的 时 候 ， 合 并 几 个 表 然 后 创建 
个 更 大 的 表 是 很 常见 的 ， 即 使 一 些 数据 可 能 是 重复 的 。 
无 论 数 据 库 的 使 用 目的 是 什么 ，SQL 通常 查询 关系 数据 库 表 的 内 容 ， 以 及 插入 、 更 新 
和 删除 数据 。 对 customer 表 进 行 的 基本 SQL 查询 可 能 看 起 来 如 下 所 示 。 
SELECT first_name, 
last_name 
FROM customer 
WHERE customer id = 666730 
first name last name 
Mason Hu 
该 查询 返回 一 个 customer. id 为 666730 的 客户 信息 。 这 个 SQL 查询 包含 三 个 关键 部 分 。 
© SELECT: 指定 要 显示 的 表 列 。 
€ FROM: 指定 要 查询 的 表 名 。 
e WHERE: 指定 要 应 用 的 标准 或 过 滤 条 件 。 
在 关系 数据 库 中 ， 经 常 有 必要 一 次 性 跨 多 个 表 来 访问 相关 数据 。 为 了 完成 这 一 任务 ，SQL 
查询 语句 使 用 JOIN 语句 来 指定 多 个 表 之 间 的 关系 。 
11.1.1 ”连接 
连接 (jion ) 使 数据 库 用 户 能 够 从 2 个 或 多 个 表 中 选择 适当 的 列 。 基 于 图 11.1 中 的 关系 图 ， 
下 面 的 SQL 查询 给 出 了 一 个 最 常见 类 型 的 连接 示例 ， 内 部 连接 (nner join )。 








SELECT c.custom 
o.order 
o.product 





er_id, 
id, 


id, 
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o.item quantity AS qty 
FROM orders o 
INNER JOIN customer c 
ON o.customer id = c.customer id 


WHERE c.first name - 'Mason' 

AND c.last name = 'Hu' 
customer id order id product id qty 
666730 51965-1172-6384-6923 33611 5 


666730 79487-2349-4233-6891 34098 
666730 39489-4031-0789-6076 33928 
666730 29892-1218-2722-3191 33625 
666730 07751-7728-7969-3140 34140 4 
666730 85394-8022-6681-4716 33571 


这 个 查询 返回 客户 Mason Hu 所 下 订单 的 详情 ,SQL 查询 基于 相等 的 customer_id 值 在 FROM 
子 句 中 连接 了 2 张 表 。 在 这 个 查询 中 ， 程 序 员 不 需要 知道 Mason Hu 的 customer. id 的 具体 值 ， 
只 需要 知道 客户 的 全 名 即 可 。 
这 个 SQL 查询 中 介绍 了 一 些 INNER JOIN 之 外 的 额外 功能 。 表 order 和 customer 分 别 定 义 
具有 别名 o 和 c。 别 名 用 来 代替 完整 的 表 名 以 提高 查询 的 可 读 性 。SELECT 子 句 中 指定 的 列 名 称 
由 在 输出 中 提供 。 然 而 ， 输 出 列 的 名 称 也 可 用 AS 关键 字 进 行 修改 。 在 SQL 查询 
item, quantity 的 值 ， 但 是 输出 的 列 现在 称 为 qty。 
INNER JOIN 从 两 个 表 中 返回 满足 ON 条 件 的 那些 行 。 从 customer 表 之 前 的 查询 来 看 ， 只 
有 表 中 的 客户 Mason Hu 这 一 行 返回 。 因 为 与 Mason Hu 对 应 的 customer. id 在 order 表 中 出 现 了 
6 iX , INNER JOIN 查询 返回 了 6 条 记录 。 如 果 不 包 括 WHERE 子 句 ， 该 查询 将 会 根据 所 有 具有 
个 匹配 用 户 的 订单 返回 数 百 万 行 。 
段 设 一 个 分 析 师 想 知 道 有 哪些 客户 已 经 创建 了 一 个 在 线 账户 但 没有 下 过 订单 。 个 查询 
使 用 RIGHT OUTER JOIN 来 识别 没有 下 单 过 的 前 5 名 客户 (按照 字母 顺序 排序 )。 记 录 的 排 月 
是 通过 ORDER BY 子 句 实现 的 。 
SELECT c.customer id, 
c.first name, 
c.last name, 
o.order id 
FROM orders o 
RIGHT OUTER JOIN customer c 
ON o.customer id = c.customer id 
WHERE o.order id IS NULL 
ORDER BY c.last name, 


c.first name 
LIMIT 5 
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customer id first name last name order id 
143915 Abigail Aaron 
965886 Audrey Aaron 
982042 Carter Aaron 
125302 Daniel Aaron 
103964 Emily Aaron 




























































































在 SQL 查询 中 , RIGHT OUTER JOIN 用 于 指定 位 于 JOIN 右 侧 的 customer 表 中 的 所 有 行 应 
该 被 返回 ， 而 不 管 在 orders 表 中 是 否 有 匹配 的 customer_id。 在 这 个 查询 中 ，WHERE 子 句 将 结 
限制 为 没有 匹配 的 order_id 的 客户 记录 。NULL 一 个 特殊 的 SQL 关键 字 , 表示 一 个 未 知 的 值 。 
如 果 没 有 WHERE 子 句 , 输出 也 将 包含 在 orders 表 中 有 匹配 的 customer. id 的 所 有 记录 ， 如 下 面 
的 SQL 查询 所 示 。 
SELECT c.customer id, 
c.first name, 
c.last name, 


O. 





order_id 


FROM orders o 
RIGHT OUTER JOIN customer c 
ON o.customer id = c.customer id 


ORDER BY c.last name, 
c.first name 
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LIMIT 5 

customer id first name last name order id 

143915 Abigail Aaron 

222599 Addison Aaron 50314-7576-3355-6960 

222599 Addison Aaron 21007-7541-1255-353 

222599 Addison Aaron 19396-4363-4499-8582 

222599 Addison Aaron 69225-1638-2944-0264 

在 查询 结果 中 ， 第 一 个 客户 Abigail Aaron 没有 下 过 订单 ， 但 下 一 个 客户 Addison Aaron 已 
下 了 至 少 4 个 订单 。 

还 有 几 个 其 ecu adi LEFT OUTER JOIN 执行 的 功能 与 RIGHT OUTER JOIN Jj 
同 ， 唯 一 的 区 别 是 它 考 虑 的 是 位 于 JOIN 左 侧 的 表 中 的 所 有 记录 。FULL OUTER JOIN 包括 两 个 
表 中 的 所 有 记录 ， 而 不 管 在 另外 一 个 表 中 是 否 有 匹配 的 记录 。CROSS JOIN 通过 匹配 第 一 个 表 
的 每 行 和 第 二 个 表 的 每 行 ,将 两 个 表 结 合 起 来 。 如 果 这 两 张 表 分 别 100 和 1000 行 ， 则 这 两 个 表 
的 CROSS JOIN 的 结果 将 有 100,000 行 。 

从 任何 连接 操作 返回 的 实际 记录 取决 于 WHERE 子 句 所 描述 的 条 件 。 因 此 在 使 用 WHERE 
子 句 时 需要 仔细 考虑 ,尤其 是 使 用 外 部 连接 的 时 候 。 否 则 ， 可 能 无 法 实现 外 部 连接 的 预期 用 途 。 


11.1.2 setz 







































































































































































































































































































































































SQL 提供 了 对 数据 行进 行 set 操作 的 能 力 ， 比 如 并 操作 (union ) 和 交 操 作 (intersection )。 
例如 , 假设 orders 表 中 所 有 记录 被 拆 分 为 两 个 表 。orders_arch 表 用 来 存储 2013 年 1 月 之 前 下 的 
订单 ,在 2013 4E 1 月 或 以 后 交易 的 订单 存储 在 orders. recent 表 中 。 然 而 ,现在 需要 分 析 product. id 
等 于 33611 的 所 有 订单 。 一 种 方法 是 对 这 两 张 表 编写 和 运行 两 个 单独 的 查询 。 两 个 查询 的 结果 
可 以 稍 后 被 合并 到 一 个 单独 的 文件 或 表 中 。 另 一 种 方法 是 ， 使 用 UNION ALL 运算 符 编写 一 个 
查询 ， 如 下 所 示 。 
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SELECT customer id, 
order id, 
order datetime, 
product id, 
item quantity AS qty 
FROM orders arch 
WHERE product id - 33611 
UNION ALL 
SELECT customer id, 
order id, 
order datetime, 
product id, 
item quantity AS qty 
FROM orders recent 
WHERE product id - 33611 
ORDER BY order datetime 


customer id order id order datetime product id qty 
643126 13501-6446-6326-0182 2005-01-02 19:28:08 33611 1 

725940 70738-4014-1618-2531 2005-01-08 06:16:31 33611 
742448 03107-1712-8668-9967 2005-01-08 16:11:39 33611 
640847 73619-0127-0657-7016 2013-01-05 14:53:27 33611 
660446 55160-7129-2408-9181 2013-01-07 03:59:36 33611 
647335 75014-7339-1214-6447 2013-01-27 13:02:10 33611 


| 上 FF 























输出 中 显示 了 每 个 表 中 的 前 三 条 记录 。 因 为 来 自 两 个 表 的 结果 记录 在 输出 中 会 被 全 加 在 一 


起 ， 因 此 列 的 先后 顺序 需要 相同 ， 以 及 列 的 数据 类 型 需要 是 兼容 的 。UNION ALL 合并 两 个 
SELECT 语句 的 结果 ， 而 不 管 两 个 SELECT 语句 中 返回 的 任何 重复 记录 。 如 果 只 使 用 UNION， 
则 所 有 重复 记录 会 列 而 被 消除 。 

INTERSECT 运算 符 能 判断 被 两 个 SELECT 语句 返回 的 相同 记录 。 例 如 ， 如 果 有 人 想 知 道 
什么 产品 在 2013 年 以 前 或 2013 以 后 都 被 购买 ,就 可 使 用 带 有 JINTERSECT 操作 符 的 SQL 查询 。 
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SELECT product id 
FROM orders arch 
INTERSECT 
SELECT product id 
FROM orders recent 








product id 
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同一 个 
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需要 注意 的 是 ， 交 操作 仪 返回 在 两 个 表格 中 都 出 现 的 product. id , (Mik 






































11.4 SQL 基本 要 素 





















































product id 的 一 个 实例 。 因 此 ， 该 查询 只 返回 一 个 具有 不 同 产品 ID 的 列表 。 
要 统计 仅 在 2013 年 之 前 下 单 的 产品 数量 ,可 以 使 用 EXCEPT 操作 符 将 orders. recent 表 中 的 
产品 ID 从 orders. arch 表 中 的 产品 ID 排除 ， 如 下 面 的 SQL 查询 显示 。 



































































































































SELECT COUNT (e.*) 

FROM (SELECT product id 
FROM orders arch 
EXCEPT 
SELECT product id 
FROM orders recent) e 























前 面 的 查询 使 用 了 COUNT 聚合 函数 来 确定 从 包括 EXCEPT 运算 符 的 第 二 个 SQL 查询 中 
返回 的 行 的 数量 。 这 个 查询 中 的 SQL 查询 有 时 称 为 子 查询 (subquery ) RREAN (nested 


query ),。 子 查询 使 我 们 在 构建 相当 复杂 的 查询 时 无 需 先 执 行 部 分 查询 ,将 结果 行 存 入 临时 表 中 ， 
上 
" 

















ni 






































IL 



















































































然后 再 执行 另 一 个 SQL 查询 处 理 那 些 临 时 表 。 子 查询 可 以 代替 FROM 子 句 内 的 表 或 者 
WHERE 子 句 中 。 





























































































































11.1.3 grouping 扩展 


此 前 的 COUNTO 聚 合 函 数 是 用 来 计算 查询 返回 行 的 数量 。 在 对 一 个 数据 集 应 用 了 某 些 分 组 
(grouping ) 操作 后 ， 经 常 使 用 这 样 的 聚合 函数 来 进行 汇总 。 例 如 ， 我 们 可 能 需要 知道 年 利润 或 
每 周 出 货 量 。 下 面 的 SQL 查询 使 用 SUM RAAZ GROUP BY 运算 符 来 给 出 基于 


item_quantity 的 订购 前 三 名 的 商品 。 













































































































































































































































































SELECT i.product id, 

SUM(i.item quantity) AS total 
FROM orders recent i 
GROUP BY i.product id 
ORDER BY SUM(i.item quantity) DESC 
LIMIT 3 


product id total 


15072 6089 
15066 6082 
15060 6053 


























GROUP BY 可 以 使 用 ROLLUPO 运 算 符 来 计算 小 计 Csubtotal ) 和 总 计 (grand total), LDA F 
SQL 查询 将 之 前 的 查询 作为 子 查询 放 在 WHERE 子 句 中 ， 为 总 体 订单 排名 前 三 的 产品 输出 按 年 
排序 的 产品 数量 。ROLLUP 运算 符 给 出 了 小 计 ， 这 与 之 前 每 个 product_id 的 输出 相符 ， 此 外 还 
给 出 了 总 计 。 


SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total 
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FROM orders recent r 
WHERE r.product id IN (SELECT o.product id 
FROM orders recent o 
GROUP BY o.product id 
ORDER BY SUM(o.item quantity) DESC 
LIMIT 3) 








GROUP BY ROLLUP( r.product id, DATE PART('year', r.order datetime) ) 
ORDER BY r.product id, 
DATE PART('year', r.order datetime) 

product id year total 

5060 2013 5996 

5060 2014 57 

5060 6053 

5066 2013 6030 

5066 2014 52 

5066 6082 

5072 2013 6023 

5072 2014 66 

5072 6089 

18224 


























通过 为 CUBE 语句 中 指定 的 每 一 列 提供 小 计 ,CUBE 运算 符 扩展 了 ROLLUP 运算 符 的 功能 。 
修改 之 前 的 查询 , 将 ROLLUP 运算 符 替 换 为 CUBE 运算 符 , 产生 的 结果 相同 ,同时 该 结果 中 还 
添加 了 每 一 年 的 小 计 。 


SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total 
FROM orders recent r 
WHERE r.product id IN (SELECT o.product id 
FROM orders recent o 
GROUP BY o.product id 
ORDER BY SUM(o.item quantity) DESC 
LIMIT 3) 
GROUP BY CUBE( r.product id, DATE PART('year', r.order datetime) ) 
ORDER BY r.product id, 
DATE PART('year', r.order datetime 































































































product id year total 








5060 2013 5996 

5060 2014 57 

5060 6053 

5066 2013 6030 

5066 2014 52 

5066 6082 

5072 2013 6023 

5072 2014 66 

5072 6089 
2013 18049 — additional row 
2014 175 — additional row 


18224 




















779 EH FRI] null 值 表 示 小 计 和 总 计 的 行 ， 因 此 null 值 出 现在 要 


11.4 SQL 基本 要 素 





















































} 组 的 列 中 时 ， 必 须 多 加 














































































































小 心 。 例 如 , null 值 可 能 是 要 分 析 的 数据 集 的 一 部 分 。GROUPING0O 功 能 可 以 识别 带 有 null 值 的 
哪些 行 能 用 于 小 计 或 总 计 。 
SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total, 
GROUPING (r.product id) AS group id, 
GROUPING(DATE PART('year', r.order datetime)) AS group year 





FROM orders recent r 
WHERE r.product id IN (SELECT o.product id 


FROM orders recent o 

GROUP BY o.product id 

ORDER BY SUM(o.item quantity) DESC 
LIMIT 3) 


GROUP BY CUBE( r.product id, DATE PART('year', r.order datetime) ) 
ORDER BY r.product id, 
DATE PART('year', r.order datetime) 




































































































































































product id year total group id group year 
15060 2013 5996 0 0 
15060 2014 57 0 0 
15060 6053 0 L 
15066 2013 6030 0 0 
15066 2014 52 0 0 
15066 6082 0 L 
15072 2013 6023 0 0 
15072 2014 66 0 0 
15072 6089 0 1 
2013 18049 1 0 
2014 175 1 0 
18224 1 
在 前 面 的 查询 中 ， 当 按照 year 来 计算 总 计 的 时 候 ，group_year 设置 为 1。 与 之 相似 ， 当 按 
HE product. id 来 计算 总 计 的 时 候 ，group_id 设置 也 为 1。 
ROLLUP fil CUBE 函数 可 以 通过 GROUPING SETS 来 自 定义 。 使 用 CUBE 运算 符 的 SQL 




















查询 可 以 被 下 列 使 













































































] GROUPING SETS 的 查询 来 蔡 代 ， 并 输出 相同 的 结果 。 
SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total 


FROM orders recent r 
WHERE r.product id IN (SELECT o.product id 


FROM orders recent o 

GROUP BY o.product id 

ORDER BY SUM(o.item quantity) DESC 
LIMIT 3) 


GROUP BY GROUPING SETS( ( r.product id, 


DATE PART('year', r.order datetime) ), 
( r.product id ), 
( DATE PART('year', r.order datetime) ), 
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ORDER BY r.product id, 
DATE PART('year', r.order datetime) 


列 出 的 分 组 集 (grouping set) 定义 了 小 计 所 在 的 列 。 最 后 一 个 分 组 集 ( ) 说 明 在 查询 结果 
中 输出 按 年 份 的 总 计 。 人 例如， 如果 只 需要 最 终 的 总 计 (grand total )， 则 可 以 采用 以 下 使 用 ] 
GROUPING SETS 的 SQL 查询 。 





















































































































































SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total 
FROM orders recent r 
WHERE r.product id IN (SELECT o.product id 
FROM orders recent o 
GROUP BY o.product id 
ORDER BY SUM(o.item quantity) DESC 
LIMIT 3) 
GROUP BY GROUPING SETS( ( r.product id, 
DATE PART('year', r.order datetime) ), 
6) ) 
ORDER BY r.product id, 
DATE PART('year', r.order datetime) 


product id year total 


15060 2013 5996 
15060 2014 57 
15066 2013 6030 
15066 2014 52 
15072 2013 6023 
15072 2014 66 
18224 











Aly GROUP BY 子 句 可 以 包含 多 个 CUBE, ROLLUP 或 列 的 指定 (column specification ), 
所 以 可 能 会 有 重复 的 分 组 集 。GROUP_IDO 函 数 可 以 用 0 识别 唯一 的 行 ， 用 1、2、……… 识别 元 
余 的 行 。 为 了 解释 GOURP_IDO 函 数 , 下 面 的 查询 在 只 检查 一 个 特定 的 product, id AY, 同时 使 用 
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了 ROLLUP 和 CUBE。 





SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total, 
GROUP ID() AS group id 
FROM orders recent r 
WHERE r.product id IN ( 15060 ) 
GROUP BY ROLLUP( r.product id, DATE PART('year', r.order datetime) ), 
CUBE( r.product id, DATE PART('year', r.order datetime) ) 
ORDER BY r.product id, 
DATE PART('year', r.order datetime), 





GROUP ID() 
product id year total group id 
15060 2013 5996 0 


15060 2013 5996 1 
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5060 2013 5996 3 
5060 2013 5996 4 
5060 2013 5996 5 
5060 2013 5996 6 
5060 2014 57 0 
5060 2014 57 1 
5060 2014 57 2 
5060 2014 57 3 
5060 2014 9 4 
5060 2014 57 5 
5060 2014 57 6 
5060 6053 0 
5060 6053 1 
5060 6053 2 
2013 5996 0 

2014 57 0 

6053 0 



































Tp 


将 group. id 值 等 于 零 的 值 过 滤 , 会 输出 不 习 
如 下 面 的 SQL 查询 中 所 示 。 


SELECT r.product id, 
DATE PART('year', r.order datetime) AS year, 
SUM(r.item quantity) AS total, 
GROUP ID() AS group id 
FROM orders recent r 
WHERE r.product id IN ( 15060 ) 
GROUP BY ROLLUP( r.product id, DATE PART('year', r.order datetime) ), 
CUBE( r.product id, DATE PART('year', r.order datetime) ) 
HAVING GROUP ID() = 0 
ORDER BY r.product id, 
DATE PART('year', r.order datetime), 

















Zi 


























ar 

















GROUP ID() 

product id year total group id 

15060 2013 5996 0 

15060 2014 57 0 

15060 6053 0 

2013 5996 0 

2014 5 0 

6053 0 
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复 的 记录 。 这 个 过 沽 可 以 使 用 HAVING 3 








ESEI, 


SQL 提供 了 一 些 基 本 的 文本 字符 串 函 数 以 及 通配符 的 搜索 功能 。 相 关 的 SELECT 语句 以 及 






































封装 在 SQL 注释 分 隔 符 /**/ 中 的 相应 输出 结果 ， 如 下 所 示 : 


SELECT SUBSTRING('1234567890', 3,2) /* returns '34' */ 
SELECT '1234567890' LIKE '%7%' /* returns True */ 
SELECT '1234567890' LIKE '7%' /* returns False */ 
SELECT '1234567890' LIKE ' 2$' /* returns True */ 
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SELECT '1234567890' LIKE ' 3$' /* returns False */ 
SELECT '1234567890' LIKE ' 3$' /* returns True */ 






















































































本 节 讨 论文 本 分 析 所 使 用 的 更 为 动态 和 灵活 的 工具 ， 称 为 正则 表达 式 ， 以 及 它们 如 何在 SQL 







































































AE True 结果 的 相关 SQL 示例 。 





















































查询 中 被 用 来 进行 模式 匹配 。 表 11.1 包含 了 正则 表达 式 使 





























的 比较 运算 符 的 几 W, WBF 








表 11.1 正则 表达 式 运算 符 






























































运算 符 描述 示例 

P 包含 正则 表达 式 ( 区 分 大 小 写 ) ‘123a567” ~ ‘a’ 
Pu 包含 正则 表达 式 〈 不 区 分 大 小 写 ) 1233567" ~* A 
Ie 不 包含 正则 表达 式 〈 区 分 大 小 写 ) :123a56T ! ~ ‘A’ 
ees 不 包含 正则 表达 式 〈 不 区 分 大 小 写 ) :123a56T' ! ~* b’ 





























在 比较 运算 符 右 侧 指定 的 更 为 复杂 的 模式 ， 可 以 使 


pu 

















表 112 ”正则 表达 式 元 素 




















JK 112. 中 的 元 素来 构建 。 
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NP, 
| 匹配 a 项 或 者 b 项 Cal 
2 匹配 字符 串 开 始 的 位 置 
$ 匹配 字符 串 结束 的 位 置 
匹配 任意 单个 字符 

i 匹配 前 面 的 字符 0 或 多 次 
十 匹配 前 面 的 字符 1 或 多 次 
? 前 面 的 字符 是 可 选 的 
{n} 匹配 前 面 的 字符 mn 次 
O 完全 匹配 内 容 
[] 匹配 内 容 中 的 任意 字符 ， 例 如 [0-9] 
\\x 匹配 名 为 x 的 非 字母 字符 
W 匹配 一 个 转 义 字符 串 \y 

为 了 说 明 这 些 元 素 的 使 用 ， 下 面 的 SELECT 语句 包含 了 比较 结果 True 或 False 的 例子 。 



































/* matches x or y Cx|y')*/ 
SELECT '123a567' ~ '23|b' /* returns True */ 
SELECT '123a567' ~ '32|b' /* returns False */ 


/* matches the beginning of the string */ 
SELECT '123a567' ~ '^123a' /* returns True */ 
SELECT '123a567' ~ '^123a7' /* returns False */ 
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/* matches the end of the string */ 
SELECT 23a567' ~ 'a567$' /* returns True */ 
SELECT '123a567' ~ '27$' /* returns False */ 


/* matches any single character */ 

SELECT '123a567' ~ '2.a' /* returns True */ 

SE 23a567' ~ '2..5' /* returns True */ 
SELECT '123a567' ~ '2...5' /* returns False */ 


E 
[sa] 
Q 


/* matches preceding character zero or more times */ 
SE 23a567' ~ '2*' /* returns True */ 

SELECT '123a567' ~ '2*a' /* returns True */ 

SELECT 23a567' ~ '7*a' /* returns True */ 

SELECT '123a567' ~ '37*' /* returns True */ 

SELECT 23a567' ~ '87*' /* returns False */ 


E 
ti 
(3 


/* matches preceding character one or more times */ 
SELECT '123a567' ~ '2+' /* returns True */ 

SELECT 23a567' ~ '2+a' /* returns False */ 

SE 23a567' ~ '7+a' /* returns False */ 

SELECT '123a567' ~ '37+' /* returns False */ 

SELECT '123a567' ~ '87+' /* returns False */ 


E 
Bi 
e 





/* makes the preceding character optional */ 
SELECT '123a567' ~ '2?' /* returns True */ 

SELECT '123a567' ~ '2?a' /* returns True */ 
SELECT '123a567' ~ '7?a' /* returns True */ 
SELECT '123a567' ~ '37?' /* returns True */ 
SELECT 23a567' ~ '87?' /* returns False */ 





/* Matches the preceding item exactly (n) times */ 


SELECT '123a567' ~ '5(0)' /* returns True */ 
SELECT '123a567' ~ '5(1)' /* returns True */ 
SELECT '123a567' ~ '5(2)' /* returns False */ 
SELECT '1235567' ~ '5(2)' /* returns True */ 
SELECT '123a567' ~ '8(0)' /* returns True */ 
SELECT '123a567' ~ '8(1)' /* returns False */ 


/* Matches the contents exactly */ 





SELECT '123a567' ~ '(23a5)' /* returns True */ 
SELECT '123a567' ~ '(13a5)' /* returns False */ 
SELECT '123a567' ~ '(23a5)7*' /* returns True */ 
SELECT '123a567' ~ '(23a5)7+' /* returns False */ 


/* Matches any of the contents */ 





SELECT '123a567' ~ '[23a8]' /* returns True */ 
SELECT '123a567' ~ '[8a32]' /* returns True */ 
SELECT '123a567' ~ '[(13a5)]' /* returns True */ 
SELECT '123a567' ~ '[xyz9]' /* returns False */ 
SELECT '123a567' ~ '[a-z]' /* returns True */ 
SELECT '123a567' ~ '[b-z]' /* returns False */ 


/* Matches a nonalphanumeric */ 

SELECT '$50K*' ~ '\\S' /* returns True */ 
SELECT 'S50K+' ~ '\\+' /* returns True */ 
SELECT '$50K+' ~ '\\$\\+' /* returns False */ 
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/* Use of the backslash for escape clauses */ 

/* NNw denotes the characters 0-9, a-z, A-Z, or the underscore( ) */ 
SELECT '123a567' ~ 'NNw' /* returns True */ 

SELECT '123a567+' ~ '\\w' /* returns True */ 

SELECT '++++++++' ~ '\\w' /* returns False */ 

SELECT ' ' ~ '\\w' /* returns True */ 

SELECT '+' ~ '\\w' /* returns False */ 

正则 表达 式 可 以 用 来 识别 邮寄 地 址 、 电 子 邮件 地 址 、 电 话 号 码 或 货币 金额 。 






















































































/* use of more complex regular expressions */ 


SELECT '$50Kt' ~ '\\S$[0-9]*K\\+' /* returns True */ 
SELECT '$50K*' ~ '\\S[0-9]K\\+' /* returns False */ 
SELECT '$50M*' ~ '\\S$[0-9]*K\\+' /* returns False */ 
SELECT '$50M+' ~ '\\$[0-9]*(K|M)\\+' /* returns True */ 


/* check for ZIP code of form #####-#### */ 





SELECT '02038-2531' ~ '[0-9]{5}-[0-9]{4}' /* returns True */ 
SELECT '02038-253' ~ '[0-9]{5}-[0-9]{4}' /* returns False */ 
SELECT '02038' ~ '[0-9]{5}-[0-9]{4}' /* returns False */ 

































































到 目前 为 上 ， 我 们 通过 在 SELECT 语句 中 包含 布尔 比较 ( 并 将 比较 的 结果 作为 一 个 列 来 返 
) 介绍 了 正则 表达 式 的 应 用 。 在 实践 中 ， 这 些 比较 在 SELECT 语句 的 WHERE 子 句 中 使 用 ， 
] 来 比较 表 中 的 列 ， 以 识别 感 兴趣 的 特定 记录 。 例 如 ， 下 面 的 SQL 查询 识别 了 那些 在 客户 地 址 
中 不 匹配 帮 村 # 禁 村 的 邮编 。 一 旦 识别 出 无 效 的 邮编 以 后 ， 就 可 以 通过 手动 或 自动 的 方法 进行 
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SELECT address_id, 
customer_id, 


city, 
state, 
zip, 
country 
FROM customer addresses 
WHERE zip !~ '*[0-9]{5}-[0-9]{4}$' 
address id customer id city state zip country 
7 13 SINAI SD 57061-0236 USA 
18 27 SHELL ROCK IA S0670-0480 USA 
24 37 NASHVILLE TN 37228-219 USA 





















































SQL 函数 能 够 使 用 正则 表达 式 来 提取 匹配 的 文本 (比如 SUBSTRINGOPÉAZR ) 以 及 更 新 文本 
(比如 REGEXP_REPLO 函 数 )。 





























/* extract ZIP code from text string */ 

SELECT SUBSTRING('4321A Main Street Franklin, MA 02038-2531' 
FROM '[0-9] {5}-[0-9] (4) ') 

02038-2531 


/* replace long format zip code with short format ZIP code */ 
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SELECT REGEXP REPLACE('4321A Main Street Franklin, MA 02038-2531', 

' [0-9] {5}- [0-9] (4] ' , 

SUBSTRING (SUBSTRING ('4321A Main Street Franklin, MA 02038-2531' 
FROM '[0-9]{5}-[0-9]{4}'),1,5) ) 





4321A Main Street Franklin, MA 02038 












































正则 表达 式 在 搜索 和 修改 文本 字符 串 方面 提供 了 相当 大 的 灵活 性 。 然 而 ， 也 很 容易 会 创建 
一 个 不 按照 预期 工作 的 正则 表达 式 。 例 如 ， 特 定 的 操作 可 能 在 给 定 的 数据 集 上 能 正常 工作 ， 对 
后 续 的 数据 集 则 可 能 会 有 新 的 情况 需要 处 理 。 因 此 ， 要 对 使 用 了 正则 表达 式 的 任何 SQL 代码 进 
J 彻底 测试 。 
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11.3 mk SQL 技术 
本 节 以 前 面 的 内 容 为 基础 ， 介 绍 可 以 简化 数据 库 内 分 析 的 高 级 SQL 技术 。 
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11.3.1 窗口 函数 


在 11.1.3 节 中 ， 介 绍 了 几 个 使 用 SQL 聚合 函数 和 分 组 选项 对 数据 集 进 行 汇总 的 SQL 示例 。 
国 数 (window function ) 做 数据 聚合 ， 但 是 依旧 提供 了 整个 数据 集 的 汇总 结果 。 例 如 ， 可 
EH RANKO 函 数 基 于 某 些 属性 对 一 组 行进 行 排序 。 基于 11.1.2 节 中 介绍 的 orders_recent SQL 
表 ， 以 下 SQL 查询 提供 了 基于 客户 总 支出 的 排名 。 


SELECT s.customer id, 
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s.sales, 
RANK () 
OVER ( 
ORDER BY s.sales DESC ) AS sales_rank 
FROM (SELECT r.customer_id, 
SUM(r.item quantity * r.item price) AS sales 

FROM orders recent r 
GROUP BY r.customer id) s 


customer id sales sales rank 
683377 27840.00 1 
238107 19983.65 

661519 18134.11 3 
628278 17965.44 4 
619660 17944.20 5 









































FROM 子 句 中 的 子 查 询 为 每 个 客户 计算 总 销量 。 在 最 外 层 的 SELECT 子 句 中 ， 销 量 以 降 月 
排列 。 在 窗口 函数 RANKO 之 后 的 OVER 子 句 指定 了 应 该 如 何 计算 该 函数 。 此 外 ， 通 过 使 用 
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PARTITION BY 子 句 ,窗口 水 数 可 以 分 别 应 用 于 给 定数 据 集 上 的 每 个 分 组 。 下 面 的 SQL 语句 
于 产品 类 别 的 销量 提供 了 客户 的 排名 。 


SELECT s.category name, 





































































































s.customer id, 
s.sales, 
RANK () 
OVER ( 
PARTITION BY s.category name 
ORDER BY s.sales DESC ) AS sales rank 
FROM (SELECT c.category name, 
r.customer id, 
SUM(r.item quantity * r.item price) AS sales 
FROM orders recent r 
LEFT OUTER JOIN product p 
ON r.product id = p.product id 
LEFT OUTER JOIN category c 
ON p.category id = c.category id 
GROUP BY c.category name, 
r.customer id) s 
ORDER BY s.category name, 
sales rank 


category name customer id sales Sales rank 
Apparel 596396 4899,93. 1 
Apparel 319036 2799,96 2 
Apparel 455683 2799,96. 2 
Apparel 468209 2700.00 4 
Apparel 456107 2118.00 5 
Apparel 430126 2.20 78731 


Automotive Parts and Accessories 362572 5706.48 1 
Automotive Parts and Accessories 587564 5109.12 
Automotive Parts and Accessories 377616 4279.86 
Automotive Parts and Accessories 443618 4279.86 
Automotive Parts and Accessories 590658 3668.55 



































在 这 个 例子 中 ， 子 查询 按照 产品 类 别 确定 了 每 个 客户 的 销量 。 外 层 的 SELECT 子 句 随后 按 
个 类 别 对 客户 销售 额 进行 排序 。SQL 查询 的 部 分 输出 显示 每 个 分 类 中 从 1 开始 的 排名 ， 以 及 
排名 和 sales 之 间 的 关系 。 
窗口 函数 的 第 二 个 用 途 是 在 一 个 滑动 窗口 时 间 上 进行 计算 。 例 如 ， 当 周 与 周 之 间 销 量 呈 现 
大 的 差异 时 ， 可 以 使 用 移动 平均 线 (moving averages) 来 平滑 周 销量 图 ， 如 图 11.2 所 示 。 
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图 11.2 一 个 在 线 零 售 商 的 周 销量 
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以 下 SQL 查询 说 明了 如 何 使 用 窗口 函数 计算 移动 平均 线 。 


SELECT year, 
week, 
sales, 
AVG (sales) 
OVER ( 
ORDER BY year, week 
ROWS BETWEEN 2 PRECEDING AND 2 FOLLOWING) AS moving avg 
FROM sales by week 
WHERE year - 2014 
AND week «- 26 
ORDER BY year, 




















week 
year week sales moving avg 
2014 1 564539 1572999.333 —average of weeks 1, 2, 3 
2014 2 572128 1579941.75 —average of weeks 1, 2, 3, 4 
2014 3 582331 1579982.6 —average of weeks 1, 2, 3, 4, 5 
2014 4 600769 1584834.4 —average of weeks 2, 3, 4, 5, 6 
2014 5 580146 1583037.2 —average of weeks 3, 4, 5, 6, 7 
2014 6 588798 1579179.6 
2014 7 563142 1563975.6 
2014 8 563043 1553665 
2014 9 524749 1547534.8 
2014 10 528593 1548051.6 
2014 11 558147 1545714.2 
2014 12 565726 1549404 
2014 13 551356 1548812.6 
2014 14 543198 1543820.2 
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2014 15 525636 1536767.6 

2014 16 533185 1531662.2 

2014 17 530463 1527313.6 

2014 18 525829 1528787.8 

2014 19 521455 1532649 

2014 20 533007 1533370 

2014 21 552491 1532116 

2014 22 534068 1539713.6 

2014 23 519559 1538199.6 

2014 24 559443 1539086.2 —average of weeks 22,23,24,25,26 

2014 25 525437 1540340.75 —average of weeks 23,24,25,26 
4 


26 556924 1547268 —average of weeks 24,25,26 



























































窗口 函数 使 用 了 内 置 的 聚合 函数 AVG()， 该 函数 会 计算 一 组 值 的 算术 平均 值 。ORDER 
BY 子 句 按照 时 间 顺 序 对 记录 进行 排序 ， 并 指定 在 对 当前 行 求 平均 过 程 中 还 要 包含 哪些 行 。 

这 个 SQL 查询 中 ， 移 动 平均 线 是 对 当前 行 、 前 面 2 行 和 后 面 2 行 求 平均 值 。 因 为 数据 集 没 
有 包含 2013 年 的 最 后 两 周 ， 因 此 第 一 个 移动 平均 值 1,572,999.333 是 2014 年 前 3 周 (当前 
同和 接 下 来 的 两 周 ) 的 平均 值 。 第 二 周 的 移动 平均 值 1,579,941.75 是 第 2 周 和 先 前 一 周 以 及 
后 来 两 周 的 销售 额 平 均值 。 从 第 3 周到 第 24 周 , 移动 平均 线 是 基于 5 周 的 周期 。 在 第 25 周 ， 
因为 没有 后 面 的 周 数据 ， 所 以 窗口 包含 的 周 比较 少 。 图 11.3 所 示 为 对 周 销量 图 及 
so 
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11.3 ” 带 有 移动 平均 线 的 周 销量 
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内 置 的 窗口 函数 可 能 因 不 同 的 SQL 实现 而 变化 。 表 11.3 来 自 于 PostgreSQL 文档 ， 它 
了 一 系列 通用 的 窗口 函数 。 
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11.3 ”高 级 SQL 技术 
表 11.3 
函数 Hu 
row=numbert) 分 区 中 当前 行 的 行 号 ， 从 1 开始 计数 
eT 当前 行 的 排名 ， 带 间断 ， 对 等 的 行 (peer) 的 排名 等 同 于 其 中 第 一 
行 的 row. number 
d 当前 行 的 排名 ， 不 带 间 断 ; 函数 计 算 时 以 对 等 组 〈peer group) 为 单 
RS 位 进行 排名 
percent rank() 当前 行 的 相对 排名 : (rank-1) / (总行 数 -1) 
cume dist() 当前 行 的 相对 排名 : (当前 行 之 前 的 行 数 ) /( 总 行 数 ) 
ntile(num bucketsinteger) 范围 为 1 一 参数 值 的 整数 ， 尽 可 能 将 分 区 平等 划分 
1 1 M 返回 对 分 区 内 当前 行 之 前 的 offset 行 计算 的 value; 如 果 没 有 这 样 的 
aq icc 行 ， 则 返回 default. offset 和 default 都 是 根据 当前 行 计算 的 。 如 果 
省 略 ， 则 offset 默认 为 1，default 为 null 
desde NE 返回 对 分 区 内 当前 行 之 后 的 offset 行 计算 的 value; 如 果 没 有 这 样 的 
ny oe DRE, 行 ， 就 返回 default. offset 和 default 都 是 针对 根据 行进 行 计算 的 。 
i 如 果 省 略 ， 则 offset 默认 为 1，default 7j null 
first_value(valueany) 返回 窗口 框架 Cwidnow frame) 内 第 一 行 的 计算 值 
last_value(valueany) 返回 窗口 框架 内 最 后 一 行 的 计算 值 
. 返回 窗口 框架 内 第 nm 行 的 计算 值 (从 1 开始 计数 )， 如 果 没 有 该 行 ， 
nth_value(valueany, nth integer) JU null 


http://www.postgresql.org/docs/9.3/static/functions-window.html 
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当 内 置 的 SQL 函数 功能 不 足以 应 对 特定 任务 或 分 析 的 时 候 , SQL 人 允许 用 户 创建 LE eR 
数 与 聚合 。 这 种 自 定义 功能 可 以 集成 到 SQL 查询 中 ， 而 且 使 用 方式 与 内 置 男 数 和 聚合 相同 。 月 
户 定义 函数 也 可 以 用 来 简化 用 户 可 能 经 常 过 到 的 处 理 任务 。 
例如 ， 可 以 写 一 个 用 户 定义 函数 ， 将 female 和 male 的 文本 字符 串 (分 别 为 FE 和 M) 相应 
地 转换 成 0 和 1。 当 对 数据 进行 格式 化 以 便 在 回归 分 析 中 使 用 时 ， 这 样 的 函数 会 很 有 用 。 
fm_convert0 国 数 可 以 按照 如 下 的 方式 来 实现 。 
CREATE FUNCTION fm convert(text) RETURNS integer AS 
'SELECT CASE 
WHEN $1 = ''F'' THEN 0 
WHEN $1 = ''M'' THEN 1 
ELSE NULL 
END' 


LANGUAGE SQL 
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IMMUTABLE 
RETURNS NULL ON NULL INPUT 


在 声明 函数 时 ， SQL 查询 被 置 于 单 引 号 之 内 。 第 一 个 也 是 唯一 的 一 个 传递 值 由 $1 来 引用 。 
SQL 查询 后 面 紧 接 着 一 个 LANGUAGE 语句 , 它 明确 指出 了 前 面 的 语句 是 在 SQL 中 编写 的 。 另 
外 一 个 选择 是 用 C 语言 编写 代码 。IMMUTABLE 表明 该 函数 不 会 更 新 数据 库 ， 也 不 会 查找 数据 
Æ> IMMUTABLE 声明 告诉 数据 库 查 询 优化 器 如 何 最 好 地 实现 该 函数 。RETURNS NULL ON 
NULL INPUT 语句 指定 了 函数 如 何 解 决 输入 为 null 的 情况 。 
在 在 线 零售 商 的 例子 中 ，fm_convert0 函 数 可 以 应 用 到 customer. demographics 表 的 gender 
列 ， 如 下 所 示 。 


SELECT customer gender, 

fm convert(customer gender) as male 
FROM customer demographics 
LIMIT 5 
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customer gender male 















































内 置 函 数 和 用 户 定 义 函 数 可 以 被 集成 到 用 户 定 义 的 聚合 ， 然 后 作为 一 个 窗口 函数 来 使 用 。 
在 11.3.1 节 ， 使 用 了 一 个 窗口 函数 来 计算 计算 移动 平均 线 ， 以 平 请 处 理 一 个 数据 序列 。 在 本 站 ， 
可 以 创建 一 个 用 户 定义 聚合 ,来 计算 指数 加 权 移 动 平 均值 (Exponentially Weighted Moving 
Average, EWMA )。 对 于 一 个 给 定 的 时 间 序 列 ，EWMA 序列 的 定义 如 公式 11.1 所 示 。 
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t=1 
EWMA, = (11.1) 
ay, -(12à).EWMA , t22 














tH, O<as<l 

在 一 个 给 定 的 时 间 序 列 中 ， 平 滑 因 子 确定 了 为 最 近 的 时 间 点 放置 多 少 权 重 。 通 过 反复 将 

EWMA 系列 的 先前 信 RAAR: 11.1， 可 以 看 到 ， 原 始 序列 在 时 间 上 呈现 指数 级 衰减 。 
为 了 将 EWMA 平滑 作为 一 个 用 户 定义 聚合 实现 在 SQL 中 ， 公 式 11.1 需要 先 作为 用 户 定义 

9 数 来 实现 。 


CREATE FUNCTION ewma calc(numeric, numeric, numeric) RETURNS numeric as 
/* $1 = prior value of EWMA */ 
/* $2 = current value of series */ 
/* $3 = alpha, the smoothing factor */ 
'SELECT CASE 
WHEN $3 IS NULL /* bad alpha */ 
OR $3 < 0 
OR $3 » 1 THEN NULL 
WHEN $1 IS NULL THEN $2 /* t = 1 */ 
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WHEN $2 IS NULL THEN $1 /* y is unknown */ 
ELSE ($3 * $2) + (1-$3) *$1 /* t >= 2 */ 




























































































































































































END' 
LANGUAGE SQL 
MMUTABLE 
通过 接受 在 注释 中 定义 的 3 REE LAE, ewma_cacO RAZER SFI Ay AB AME 
情况 ， 以 及 其 他 输入 可 能 为 null 的 特殊 情况 。ELSE 语句 执行 EWMA 计算 。 一 旦 该 函数 创建 完 
毕 ， 就 可 以 在 用 户 定义 聚合 ewma0 中 引用 。 











CREATE AGGREGATE ewma (numeric, numeric) 
(SFUNC = ewma calc, 

STYPE = numeric, 

PREFUNC - dummy function) 


JE ewma0 的 CREATE AGGREGATE 语句 中 ，SFUNC 指派 了 状态 转移 函数 ( 这 个 例子 中 
ewma calc), STYPE 指派 了 变量 的 数据 类 型 ， 用 来 存储 聚合 的 当前 状态 。 当 前 状态 的 变 量 作为 
第 一 个 变量 $1， 可 以 用 于 ewma_calc0 函 数 。 在 本 例 中 ， 因 为 ewma_calc0 函 数 需 要 三 个 输入 ， 

而 ewma0 聚 合 只 需要 两 个 输入 ;状态 变量 对 于 聚合 总 是 内 部 可 用 的 。 当 在 大 规模 并 行 处 理 ( MPP ) 
环境 中 使 用 Greeplum 数据 库 时 ， 则 需要 用 PREFUNC 指派 。 对 于 某 些 聚合 ， 有 必要 为 MPP 环 
境 中 服务 器 上 的 当前 状态 变量 执行 一 些 初 步 的 功能 。 在 这 个 例子 中 ， 指 派 的 PREFUNC 函数 是 
作为 一 个 占 位 符 被 添加 进来 ， 在 执行 ewma 0 聚合 函数 时 并 没有 用 到 。 
作为 一 个 窗口 函数 , 其 平滑 因子 为 0.1 的 ewma0 聚 合 可 以 应 用 到 周 销售 数据 中 ,如 下 所 示 。 


SELECT year, 
week, 
sales, 
ewma(sales, .1) 
OVER ( 
ORDER BY year, week) 
FROM sales by week 
WHERE year - 2014 
AND week «- 26 
ORDER BY year, 
week 
year week sales ewma 
2014 1 1564539 1564539.00 

















































































































































































































































































































































































































































































































2014 2 1572128 1565297.90 
2014 3 1582331 1567001.21 
2014 4 1600769 1570377.99 
2014 5 1580146 1571354.79 
2014 23 1519559 1542043.47 
2014 24 1559443 1543783.42 
2014 25 1525437 1541948.78 
2014 26 1556924 1543446.30 
图 11.4 将 EWMA 平 袜 序列 包含 到 了 图 11.3 中 。 
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图 11.4 每 周 销售 的 移动 平均 线 与 EWMA 








































































































0.1 开始 增加 平滑 因子 的 值 , 使 EWMA 能 更 好 地 跟 进 实际 数据 ,代价 是 数据 的 大 幅 波动 
会 引起 平 请 序列 的 更 大 波动 。 用 户 定 义 聚 合 ewma0 在 SQL 查询 的 窗口 函数 中 的 使 用 方式 与 所 有 
其 他 窗口 函数 相同 ， 即 使 用 OVER 子 句 规范 。 
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有 时 候 ， 聚 合 的 值 可 能 依赖 于 一 组 有 序 的 值 。 例 如 ， 为 了 确定 一 组 值 的 中 位 数 ， 通 常 先 按 
照 从 大 到 小 的 顺序 对 值 进行 排序 ， 然 后 在 排序 值 的 中 间 位 置 找到 中 位 数 。 排 序 可 以 通过 使 
array_agg() 函 数 来 实现 。 下 面 的 SQL 查询 计算 出 了 周 销售 数据 的 中 位 数 。 















































SELECT (d.ord sales[ d.n/2 + 1 ] + 
d.ord sales[ (d.n + 1)/2 ]) / 2.0 as median 
FROM (SELECT ARRAY AGG(s.sales ORDER BY s.sales) AS ord sales, 
COUNT(*) AS n 
FROM sales by week s 
WHERE s.year - 2014 
AND s.week «- 26) d 








median 
1551923.5 


一 般 来 说 ， 国 数 ARRAY_AGG0O 通 过 一 个 表 的 列 来 生成 一 个 数组 。 针 对 前 5 周 的 销售 数据 
执行 上 述 SQL 查询 中 的 子 查 询 解 释 了 数组 的 创建 过 程 ， 数 组 用 括号 包含 排序 后 的 周 销售 数据 。 


SELECT ARRAY AGG(s.sales ORDER BY s.sales) AS ord sales, 
COUNT(*) AS n 

FROM sales by week s 

WHERE s.year = 2014 
AND s.week «- 5 
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ord sales n 
{1564539,1572128,1580146,1582331,1600769} 5 


除了 创建 数组 ， 还 可 以 使 用 string_agg0 函 数 将 这 些 数 值 串 接 成 一 个 文本 字符 串 。 


SELECT STRING AGG(s.sales ORDER BY s.sales) AS ord sales, 
COUNT(*) AS n 

FROM Sales by week s 

WHERE s.year = 2014 
AND s.week <= 5 




































































ord_sales n 
15645391572128158014615823311600769 5 


然而 ， 在 这 个 特定 的 例子 中 ， 可 以 使 用 分 号 之 类 的 分 隔 符 将 值 进行 分 陋 。 


SELECT STRING AGG(s.sales, ',' ORDER BY s.sales) AS ord sales, 
COUNT(*) AS n 

FROM sales by week s 

WHERE s.year - 2014 
AND s.week «- 5 


















































ord sales n 
1564539,1572128,1580146,1582331,1600769 5 


尽管 排序 后 的 销售 数据 看 起 来 是 一 个 数组 ， 但 是 输出 的 前 后 没有 括号 ， 所 以 显示 的 排序 销 
售 数据 是 一 个 文本 字符 串 。 
































































































































11.3.4 MABIib 


SQL 的 实现 包含 了 许多 基本 的 分 析 和 统计 内 置 函数 ， 比 如 均值 和 方差 。 本 章 讲 到 ，SQL 还 
允许 开发 用 户 定 义 函 数 和 聚合 来 提供 额外 的 功能 。 此 外 , SQL 数据 库 还 可 以 利用 外 部 的 函数 库 。 
一 个 比较 有 名 的 库 是 MABlib。 包 含 在 MABlib 库 中 的 描述 文件 [2] 做 了 如 下 陈述 ; 


MABlib 是 一 个 开源 的 库 , 用 于 可 扩展 的 数据 库 内 分 析 。 针 对 结构 化 和 非 结构 化 数 
据 ， 它 提供 了 数学 、 统 计 和 机 器 学 习 方法 的 并 行 实现 。 

在 2009 年 ， 由 Cohen 等 人 [3] 发 表 的 一 篇 论文 提出 了 MAD (Magnetic/Agile/Deep ) 分 析 技 

巧 的 概念 。 论 文 对 MAD 的 组 件 做 了 如 下 描述 。 

€ Magnetic: 传统 的 企业 数据 库仑 库 (EDW ) 方法 “排斥 ”新 的 数据 源 ， 排 斥 数据 的 合 

， 除 非 数据 被 仔细 地 清理 与 整合 过 。 由 于 在 现代 的 组 织 中 ， 数 据 无 处 不 在 ， 一 个 数 

据 仓 库 只 有 是 “magnetic”( 有 磁力 的 ), 才能 跟 上 当今 的 步伐 : 吸纳 组 织 中 出 现 的 所 有 
数据 源 ， 而 不 考虑 数据 的 质量 品质 。 

€ Agile: 数据 仓库 的 正统 观念 是 基于 长 远 的 精心 设计 和 规划 的 。 鉴 于 数据 源 的 数量 越 来 
越 多 ， 数 据 分 析 也 日 益 复 杂 和 和 关键， 一 个 现代 的 数据 仓库 必须 能 让 分 析 师 轻松 地 摄 入 、 
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消化 、 生 产 数 据 ， 并 快速 适应 数据 。 这 要 求 一 个 数据 库 的 物理 和 逻辑 内 容 必 须 能 够 持 
续 发 展演 进 。 
Deep: 现代 的 数据 分 析 涉 及 越 来 越 复杂 的 统计 方法 ， 这 些 方法 远 远 超出 了 传统 商业 智 
fe (BI) 的 范畴 。 此 外 ， 分 析 师 在 运行 这 些 算法 时 ， 篆 背 需 要 即 见 树木 ， 又 见 森 林 ; 
他 们 想 要 在 不 借助 于 抽样 和 提取 的 情况 下 研究 巨大 的 数据 集 。 现 代数 据 仓 库 应 该 既 充 
当 深度 数据 仓库 ， 也 充当 复杂 的 算法 运行 引擎 。 
鉴于 传统 EDW 不 能 很 容易 地 适应 新 数据 产 ， 数 据 湖 (data lake) 的 概念 应 运 而 生 。 数 
据 湖 代表 一 个 收集 与 存储 大 量 结构 化 与 非 结 构 化 数据 集 的 环境 , 而 且 非 结构 化 数据 集 通 滑 具 
有 原始 的 未 调整 过 的 格式 。 数 据 湖 不 止 是 一 个 数据 仓库 , 其 架构 允许 不 同 的 用 户 和 数据 科学 
团队 进行 数据 探索 和 相关 的 分 析 活 动 。Apache Hadoop 通常 被 认为 是 构建 一 个 数据 湖 的 关键 
组 成 部 分 [4] o 
AA tt AYE MADlib 的 目的 是 适应 对 数据 的 大 规模 并 行 处 理 ， 因 此 MADIib 非常 适合 
数据 库 内 的 大 数据 分 析 。MADlib 支持 开源 数据 库 PostgreSQL 以 及 Pivotal Greenplum 数据 库 和 
Pivotal HAWQ。HAWQ 是 一 个 SQL 查询 引擎 , 它 主 要 用 于 处 理 存储 在 Hadoop 分 布 式 文件 系统 
( HDFS ) 中 的 数据 。Apache Hadoop 和 Pivotal 产品 已 经 在 第 10 章 进行 了 介绍 。 
MADIib 版 本 1.6 的 模块 [5] 如 表 11.4 所 示 。 
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x 11.4 MADIib 模块 































































































































































































































































































模型 描述 

通用 线性 模型 包括 线性 回归 、 逻 辑 回 归 、 多 项 式 逻 辑 回 归 

交叉 验证 评估 拟 合 模型 的 预测 能 力 

线性 系统 解决 密集 与 稀 玻 的 线性 系统 问题 

矩阵 分 解 执行 低 秩 矩 阵 分 解 和 奇异 值 分 解 

关联 规则 实现 Apriori 算法 来 确定 频繁 项 集 

RK KI k 均值 聚 类 

主题 建 模 提供 一 组 文件 的 潜在 狄 利克 雷 分 配 预测 模型 

描述 性 统计 简化 了 汇总 统计 和 相关 性 的 计算 

推断 统计 进行 假设 检验 

支持 模块 提供 通用 的 数组 和 概率 函数 供 其 他 MADlib 模块 使 用 

降低 维 数 启用 主 成 分 分 析 和 预测 

时 间 序 列 分 析 进行 ARIMA 分 析 
http://doc.madlib.net/latest/modules.html 

在 以 下 示例 中 ，MADlib 用 于 对 网 络 零售 商 的 客户 执行 k 均值 聚 类 分 析 ( 见 第 4 3E), 两 个 









































































































































客户 属性 (年龄 和 2013 年 以 来 的 总 销量 ) 已 经 作为 感 兴趣 的 变量 被 识别 出 来 ,用 于 聚 类 分 析 的 
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的 。 客 户 的 年 龄 可 以 在 customer_demographics 表 中 找到 。 从 orders_recent 表 中 可 以 计算 出 每 
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日 
客户 的 总 销量 。 因 为 要 包括 没有 购买 任何 东西 的 客户 ， 所 以 使 用 LEFT OUTER JOIN 来 包含 
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组 形式 的 坐标 输入 。 
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有 的 客户 。 客 户 的 年 龄 与 销量 作为 数组 存储 在 cust age sales #241, MADIib k 均值 函数 接受 























/* create an empty table to store the input for the k-means analysis */ 
CREATE TABLE cust age sales ( 

customer id integer, 

coordinates float8[]) 


/* prepare the input for the k-means analysis */ 
INSERT INTO cust age sales (customer id, coordinates[1], coordinates[2]) 
SELECT d.customer id, 
d.customer age, 


CASE 


WHEN s.sales IS NULL THEN 0.0 
ELSE s.sales 


END 
FROM customer demographics d 
LEFT OUTER JOIN (SELECT r.customer id, 


SUM(r.item quantity * r.item price) AS sales 
FROM orders recent r 
GROUP BY r.customer id) s 


ON d.customer id = s.customer id 


/* examine the first 10 rows of the input */ 
SELECT * from cust age sales 
order by customer id 


LIMIT 10 


customer id coordinates 


32,1 


33,1 


25,1 


«0 0 100i 5t N EH 
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通过 使 用 MADlib 函数 kmeans randomO, Ff Ifi 
E 
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32,51.48} 


51.89} 


27,88.28} 
31,4.85} 
26,54} 
29,63} 


01.07} 


32,41.05} 
32,0} 





的 SQL 查询 在 给 定 的 数据 集 
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询 还 提供 了 关键 给 入 变量 的 描述 。 











/* 


K-means analysis 




















cust age sales - SQL table containing the input data 
coordinates - the column in the SQL table that contains the data points 
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customer id - the column in the SQL table that contains the 
identifier for each point 

km coord - the table to store each point and its assigned cluster 

km centers - the SQL table to store the centers of each cluster 

l2norm - specifies that the Euclidean distance formula is used 

25 - the maximum number of iterations 

0.001 - a convergence criterion 

False(twice) - ignore some options 

6 - build six clusters 

xy 


SELECT madlib.kmeans random('cust age sales', 'coordinates', 
'customer id', 'km coord', 'km centers', 
'l2norm', 25 ,0.001, False, False, 6) 

SELECT * 

FROM km coord 

ORDER BY pid 


































































































LIMIT 10 

pid coords cid 

gh 1,1):(32,14.98) 6 

2 1,1):132,51.48) 

3 1,1}:{33,151.89} 4 

4 1,1}: {27, 88.28} 

5 1,1):(31,4.85) 6 

6 1,1}: {26,54} 

7 1,1}:{29, 63} 

8 1,1}:{25,101.07} 1 

9 1,1}:{32, 41.05} 

10 1,1}: {32,0 6 

输出 由 km_coord 表 组 成 。 该 表 包 含 每 个 点 (pid ) 的 坐标 、customer_id 和 分 配 的 集群 ID J 
坐标 (coords ) FRENTE E. “RAHA ERAR, Fana. fü, (1, 200, 
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3}: {L，0，f} 表 示 这 样 的 向 量 ， 即 包含 204 T2623, 0, 0, ...0, 1, 1, 1}, Hho 重复 200 次 。 
每 个 集群 的 中 点 或 质心 的 坐标 存储 在 km. center 表 中 。 
SELECT * 


FROM km centers 
ORDER BY cords 





























cid coords 

1,1 44.1131730722154,6.31487804161302 
1,1}:{39.8000419034649, 61.6213603286732 
1,1}:{39.2578830823738,167.758556117954 
Tol 40.9437092852768,409.846906145043 
ld 42.3521947160391,1150.68858851676 
LUN 41.2411873840445,4458.93716141001 
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年 龄 值 很 相似 ， 所 以 销量 的 值 支 配 了 距离 的 计算 。 在 虚拟 化 集 必 


















































说 ， 
重新 缩放 后 建议 重复 分 析 。 
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本 章 讲解 了 利用 SQL 进行 数据 库 内 分 析 的 若干 技术 和 示例 。 一 个 典型 的 SQL 查询 涉及 连 
张 表 , 通过 WHERE 子 句 过 滤 返 回 的 数据 集 以 得 到 期 望 的 记录 , 然后 指定 特定 感 兴趣 的 列 。 
提供 了 UNION 和 UNION ALL 等 set 运算 符 来 合并 两 个 或 多 个 SELECT 语句 的 查询 结果 ， 



























































































































































































































































竹 使 用 INTERSECT 来 找到 公共 的 记录 元 素 。 其 他 SQL 查询 可 以 使 用 聚合 函数 ( 比如 





By, 


















































COUNTO 、SUNO 和 GROUPBY 子 句 ) 来 汇总 数据 库 。 分 组 扩展 (比如 CUBE 和 ROLLUP 运算 




















f) 















































可 用 来 计算 小 计 和 总 计 。 
虽然 SQL 是 最 常 应 用 于 结构 化 数据 的 语言 ， 但 是 SQL 表 中 也 常 包含 非 结 构 化 数据 ， 侈 如 
、 描 述 和 其 他 自由 格式 的 文本 内 容 。 可 以 在 SQL 中 使 用 正则 表达 式 和 相关 函数 来 检查 和 调 
结构 化 数据 ， 供 后 续 分 析 

























































































































































































































































































































































































































































































EIE 使 用 。 

更 复杂 的 SQL 查询 可 以 利用 窗口 函数 计算 数值 ,例如 排名 和 原始 数据 集 的 滚动 平均 值 。 除 
SAA, SQL 也 具有 创建 用 户 自 定义 函数 的 功能 。 虽 然 我 们 可 以 在 数据 库 内 处 理 数据 ， 
将 结果 提取 到 诸如 R 之 类 的 分 析 工 具 , 但 SQL 也 可 以 使 用 MADlib 这 样 的 外 部 代码 库 来 进行 数 
据 库 内 的 统计 分 析 。 

11.5 练习 














1. 证 明 EWMA 平滑 相当 于 一 个 没有 常量 的 ARIMA (0,1,1) 模型 (在 第 8 章 中 讲述 )。 
2， 参 考 公式 11.1， 证 明 分 配 的 权重 在 时 间 上 呈 指 数 衰减 。 

3， 开 发 和 测试 一 个 用 户 定 义 聚 合 ， 计 算 N 的 阶乘 ma) ， 其 中 是 一 个 整数 。 

4， 从 一 个 SQL 表 或 查询 中 随机 选择 10% 的 行 。 提 示 : 大 多 数 SQL 实现 有 一 个 randomQ PA, 
以 输出 0 和 1 之 闻 的 一 个 均匀 随机 数 。 讨 论 对 SQL 表 中 的 记录 进行 随机 抽样 的 可 能 原因 。 
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关键 概念 

沟通 和 实施 一 个 分 析 项 目 
创建 最 终 可 交付 的 成 果 

对 不 同 的 受众 使 用 一 组 核心 素材 

比较 项 目 友 起 人 和 分 析 师 的 主要 关注 领域 
理解 基本 的 数据 可 视 化 原理 
清理 图 表 或 可 视 化 





12.1 沟通 和 实施 一 个 分 析 项 目 






































本 章 主要 介绍 了 数据 分 析 生 命 周期 的 最 后 阶段 :实施 。 在 这 个 阶段 ,项 目 团队 生成 最 终 的 
报告 、 代 码 和 技术 文档 。 在 这 个 阶段 的 结尾 ， 团 队 通 常会 尝试 建立 一 个 试点 项 目 并 在 生产 环境 
中 实施 阶段 4 中 的 开发 模型 。 如 第 2 音 中 所 述 ， 团 队 可 以 进行 精确 的 技术 分 析 ， 但 如 果 他 们 不 
能 恰当 地 表述 分 析 结果 使 其 受众 产生 共鸣 ， 那 么 别人 也 就 看 不 到 分 析 的 价值 ， 团 队 所 付出 的 巨 
六 努力 和 资源 都 会 被 浪费 。 本 再 重 点 关注 如 何 构建 个 清晰 的 工作 叙述 总 结 ， 以 及 可 以 向 关键 
天 者 传达 的 叙述 框 染 。 
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12.1 沟通 和 实施 一 个 分 析 项 目 


如 图 12.1 所 示 ， 数 据 分 析 生 命 周期 的 最 后 阶段 关注 的 是 实施 项 目 。 在 这 个 阶段 ， 团 队 需 要 
工作 的 益处 ， 并 在 拓展 工作 和 将 其 分 享 给 企业 或 者 用 户 生 态 系统 之 前 ， 建 立 一 个 试点 
项 目 来 以 可 控 的 方式 部 署 模 型 。 在 这 里 , 试点 项 目 是 指 在 全 面部 署 新 的 算法 或 功能 之 前 的 项 
这 个 试点 项 目 可 以 在 一 个 更 
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限 的 范围 内 部 署 到 受 这 些 新 模型 影响 的 业务 线 、 产 品 或 服务 部 门 。 




























































































数据 分 析 生 命 周 期 我 是 否 有 足够 的 信息 = 
来 制定 分 析 方 案 并 交 
给 团队 成 员 传 阅 ? 
发 现 
我 是 否 有 足 


够 多 的 高 质量 
数据 用 于 构建 


{ 数据 准备 分 析 模 型 ? 
| 沟通 结果 i 规划 模型 


1 建立 模型 我 是 否 已 经 确定 尝试 哪 
种 分 析 模 型 ? 我 能 进 


我 们 是 否 真 的 失败 了 ? 
图 12.1 生命 周期 数据 分 的 第 6 阶段 : 实施 



























































项 目 工作 是 否 能 朝 着 试点 项 目 推进 并 最 终 在 生产 环境 中 运行 ， 要 取决 于 财 队 量化 工作 的 益 
处 并 以 一 种 令 人 信服 的 方式 共享 给 利益 相关 者 的 能 力 。 因 此 ， 在 最 后 的 演示 中 明确 地 指出 益处 
是 至 关 重 要 的 。 
当 团 队 界 定 作 为 试点 了 
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来 部 署 分 析 模 型 时 所 涉及 的 工作 量 时 ， 要 考虑 到 在 生产 环境 中 可 
能 需要 针对 一 组 分 散 的 产品 或 一 条 业务 线 来 运行 该 模型 ， 用 来 在 现实 设置 中 测试 模型 。 这 可 上 
让 团队 从 部 署 中 学 习 经 验 ， 并 且 在 将 应 用 程序 或 代码 部 署 到 整个 企业 之 前 进行 调整 。 该 阶段 可 



























































































































































第 12 章 结尾 























NT 
«ni 









































入 一 组 新 的 团队 成 员 一 一 负责 生产 环境 并 且 带 来 一 些 新 的 问题 和 顾虑 的 工程 师 。 这 个 小 组 
于 确保 运行 中 的 模型 可 以 平稳 地 进入 生产 环境 , 并 且 该 模型 能 够 集成 到 下 游 的 业务 流程 中 。 
` 境 中 执行 模型 时 ， 团 队 应 该 怪力 于 在 异常 现象 进入 模型 前 就 能 检测 到 它 ， 并 评估 运行 
时 间 、 衡 量 与 生产 环境 中 其 他 流程 之 间 的 资源 竞争 。 
第 2 蕴 深 入 讨论 了 数据 分 析 生 命 周 期 ， 包含 了 对 最 后 阶段 给 出 的 交付 成 果 的 综述 。 在 最 
后 阶段 , 建议 团队 考虑 每 个 主要 的 利益 相关 者 的 需求 和 交付 成 果 , 以 满足 这 些 需 求 , 如 图 12.2 
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所 示 。 
代码 MOM 针对 分 析 师 的 演示 文档 
EED 技术 规范 wzm 针对 项 目 发 起 人 的 演示 文档 
业务 用 户 商业 智能 分 析 员 


数据 库 管 理 员 (DBA) 数据 工程 师 数据 科学 家 


图 12.2 一 个 成 功 分 析 项 目 中 的 关键 输出 





















































外 简 要 回顾 了 在 一 个 分 析 项 目 中 为 每 一 个 主要 利益 相关 者 呈现 的 关键 输出 ， 以 及 他 们 在 
项 目 结束 时 的 期 望 。 
€ 业务 用 户 (Business User ) 通常 试图 确定 项 目的 结果 会 给 业务 带 来 的 效益 与 影响 。 

e 项 目 发 起 人 (了 Project Sponsor ) 通常 会 问 一 些 问题 ,比如 项 目的 业务 影响 、 风 险 和 投资 
HIRE (ROI) 等 ， 以 及 项 目 怎么 才能 在 组 织 内 推广 ， 等 等 。 
e 项目 经 理 (Project Manager ) 需要 决定 项 目 是 否 能 按时 和 在 预算 内 完成 。 
e ”商业 智能 分 析 师 (Business Intelligence Analyst ) 需要 知道 他 管理 的 报告 和 仪表 板 是 否 
会 被 影响 以 及 是 否 需 要 改变 。 
e 数据 工程 师 和 数据 库 管 理 员 ( Data Engineer and Database Administrator ) 通常 需要 分 
享 分 析 项 目 中 的 代码 ， 并 创建 技术 文档 来 介绍 实现 细节 。 
e ”数据 科学 家 (Data Scientist ) 需要 共享 代码 并 向 他 的 同伴 、 经 理 和 其 他 利益 相关 者 解释 模型 。 
































































































































































































































































































































































































































12.2 ”创建 最 终 可 交付 成 果 
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虽然 这 7 个 角色 代表 了 一 个 项 目 中 的 许多 利益 方面 ， 这 些 利益 方 
大 部 分 可 以 通过 4 个 主要 的 交付 成 果 来 满足 。 
e 针对 项 目 发 起 人 的 演示 文档 包括 给 高 管 级 别 利益 相关 者 的 信息 ， 其 中 有 些 关 键 信 息 可 

以 帮助 他 们 进行 决策 。 文 档 要 整洁 、 容 易 理解 ， 以 方便 演示 人 员 进 行 讲 解 ， 同 时 便 了 

听众 掌握 。 

e 针对 分 析 师 的 演示 文档 描述 业务 流程 的 变化 和 报 

文档 时 想 要 看 到 细节 以 及 技术 图 
直方 图 )。 
e ”代码 是 给 技术 人 员 的 ， 比 如 工程 师 和 其 他 管理 生产 环境 的 人 。 
e ”技术 规范 用 来 实现 代码 。 
一 般 而 言 ， 当 受众 越 是 高 管 ， 给 项 目 发 起 者 的 演示 文档 就 越 要 简洁 。 确 保 文 档 迅 速 切 入 要 
点 ， 并 表达 研究 结果 对 发 起 人 组 织 的 价值 。 当 向 具有 定量 背景 的 受众 做 介绍 时 ， 应 该 花 更 多 的 
时 间 来 介绍 方法 论 和 研究 成 果 。 在 这 种 情况 下 ， 团 队 可 以 更 加 详细 地 描述 成 果 、 方 法 论 ， 以 及 
分 析 试 验 。 这 些 受众 对 技术 更 感 兴趣 ， 尤 其 是 在 团队 开发 了 一 种 新 的 方法 来 处 理 或 分 析 数 据 ， 
而 且 该 方法 在 未 来 可 以 进行 重用 或 者 应 用 到 类 似 的 问题 上 。 此 外 , 尽量 使 用 图 像 或 数据 可 视 化 。 
虽然 可 能 需要 更 多 的 时 间 来 开发 图 像 ， 但 图 片 会 更 吸引 人 人， 更 容易 被 记 住 ， 能 更 有 效 地 提供 关 
键 信息 。 


12.2 创建 最 终 可 交付 成 果 


在 回顾 了 数据 科学 项 目的 关键 利益 相关 者 和 主要 可 交付 成 果 之 后 ， 本 节 将 重点 描述 可 交付 
成 果 的 细节 。 为 了 说 明 这 种 方法 ， 这 里 用 一 个 虚构 的 案例 研究 用 来 让 这 些 例子 更 具体 。 图 12.3 
描述 了 一 个 虚构 的 银行 场景 ，YoyoDync 银行 将 着 手 一 个 客户 流失 预测 模型 的 项 目 。 在 这 里 , 流 
RR (chur rate) 是 指 客户 终止 与 YoyoDync 银行 的 关系 或 转投 其 他 竞争 银行 的 频率 。 














通常 存在 重 营 ， 而 其 中 
















































































































































































































































































告 的 变化 。 数 据 科学 家 在 阅读 该 演示 
X (比如 ， 接 收 者 操作 特征 (ROC) 曲线 、 密 度 图 和 
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YoyoDync 银行 研究 案例 的 概要 
€  YoyoDync 银行 是 一 个 零售 银行 ， 它 想 要 提升 其 净 现 值 (NPV) 和 客户 
留存 率 
e 银行 想 要 针对 客户 建立 有 效 的 市 场 营 销 活 动 , 以 降低 至 少 5% 的 流失 率 
e 银行 想 要 确定 这 些 客户 是 否 值得 保留 。 此 外 ， 银 行 还 想 分 析 客 户 流失 

的 原因 ， 以 及 能 做 些 什么 来 留 住 客户 
e 银行 要 建立 数据 仓库 来 支持 营销 和 其 他 相关 的 客户 关怀 计划 


图 12.3 YoyoDync 银行 研究 案例 的 概要 
基于 这 些 信息 ， 数 据 科 学 团队 可 以 在 项 目 中 创建 类 似 于 图 12.4 的 分 析 计 划 。 
除了 对 模型 规划 和 方法 进行 指导 之 外 ， 分 析 计 划 还 包含 了 项 目 限 定 范围 、 基 本 假设 、 建 模 
技术 、 初 始 假设 以 及 最 终 演示 文档 中 的 关键 成 果 。 在 花费 大 量 的 时 间 进 行 建 模 和 深入 的 数据 分 
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析 之 后 ， 体 现 项 目的 工作 和 考虑 团队 需要 着 手 解决 的 问题 的 背景 是 至 关 重 要 的 。 审 查 在 项 目 期 
间 完 成 的 工作 ， 并 识别 观测 到 的 模型 输出 、 得 分 和 结果 。 基 于 这 些 观 测 ， 开 始 识别 的 关键 信息 
和 任何 超出 预期 的 见解 。 


分 析 计划 的 构成 | 零售 银行 : YoyoDync 银行 



















































































































































































































































































现 要 解决 的 业务 
ead E 银行 怎样 才能 识别 出 有 高 流失 可 能 的 客户 ? 
初始 假设 交易 量 和 类 型 是 流失 率 的 关键 预测 
数据 和 范围 5 个 月 的 客户 账户 历史 
J 规划 一 一 
E 分 析 | 使 用 逻辑 回归 来 识别 最 有 影响 的 预测 流失 的 因素 
流 天 的 关键 预测 : 
1， 一 旦 客户 停止 使 用 其 账户 购买 汽油 和 食品 ， 则 银行 的 开户 
结果 和 关键 发 现 数 快速 减少 ， 客 户 流失 
2. 如 果 客 户 每 个 月 使 用 其 借 记 卡 的 次 数 少 于 5 次 ， 那么 他 们 
可 能 会 在 60 天 内 流失 




















通过 定位 有 高 流失 风险 的 客户 ， 客 户 流失 率 能 降低 23%。 这 
业务 影响 可 以 降低 300 万 美元 的 流失 客户 带 来 的 收入 损失 ， 以 及 避免 
每 年 150 万 美元 的 获取 新 客户 的 花 销 





















































































































































































































































































































































































































































































































































































































































































































































































































































图 12.4 YoyoDync 银行 案例 研究 的 分 析 计 划 

比 外 ， 根 据 受众 调整 项 目的 结果 很 重要 。 对 于 项 目 发 起 人 来 说 ， 需 要 向 其 显示 团队 完成 】 
项 目 目标 。 要 专注 于 做 了 什么 、 团 队 完 成 了 什么 、ROI 的 预期 是 多 少 ， 以 及 可 以 实现 什么 样 的 
商业 价值 。 给 项 目 发 起 人 提供 一 些 论据 来 帮助 其 推广 项 和 不。 发 起 人 需要 向 别人 复述 故事 ， 
所 以 需要 降低 发 起 人 的 难度 ， 并 且 通 过 提供 一 些 论据 来 确保 信息 是 准确 的 。 设 法 强调 投资 回报 
率 和 商业 价值 ， 并 明确 该 模型 是 否 可 以 部 署 在 生产 环境 中 并 满足 发 起 人 的 性 能 约束 。 

在 有 些 组 织 中 ， 可 能 并 不 期 望 数 据 科 学 团队 给 未 来 项 目 建 立 一 个 完整 的 业务 案例 且 实 现 该 
模型 。 相 反 ， 数 据 科 学 团队 需要 能 够 提供 关于 该 模型 影响 的 指导 ,来 使 得 项 目 发 起 人 或 其 指定 
的 人 能 够 创建 一 个 商业 案例 ， 并 推动 试点 和 后 续 部 署 。 换 名 话 说 ， 数 据 科 学 团队 可 以 协助 用 建 
模 结 果 和 数据 科学 的 相关 工作 来 评估 该 工作 的 实际 价值 和 更 为 广泛 地 实现 这 项 工作 的 成 本 。 

当 向 诸如 数据 科学 家 和 分 析 师 等 技术 受众 阐述 时 ， 要 专注 于 工作 是 如 何 完 成 的 。 讨 论 团队 如 何 

















































































































































































































x ] 
完成 目标 ， 以 及 如 何 选 择 模型 或 如 何 数据 分 析 的 。 分 享 分 析 方法 和 决策 流程 以 便 其 他 分 析 师 可 以 从 
中 学 习 ， 并 用 在 他 们 日 后 的 项 目 中 。 描 述 用 到 的 方法 、 技 巧 和 技术 ， 因 为 受众 会 有 兴趣 学 习 这 些 细 
节 并 考虑 该 方法 在 这 种 情况 下 是 否 是 合理 的 ， 是 否 可 以 扩展 到 其 他 类 似 的 项 目 中 去 。 提 供与 模型 
度 和 速度 相关 的 细节 ， 比 如 该 模型 在 生产 环境 中 能 多 好 地 执行 。 
理想 情况 下 ， 团 队 应 该 在 项 目 过 程 中 就 考虑 开始 最 终 演 示 文 档 的 开发 ， 而 不 是 通常 的 在 项 






























































































































































































































































































































































12.2 ”创建 最 终 可 交付 成 果 























结束 时 才 考 虑 。 这 样 可 以 确保 团队 始终 有 一 个 带 有 工作 假设 的 演示 文档 版 本 可 以 显示 给 利益 
相关 者 ， 在 需要 时 可 以 在 短 时 间 内 展示 阶段 性 项 目 进展 。 事 实 上 ， 许 多 分 析 师 会 在 一 个 项 
始 时 编写 执行 概要 ， 然 后 随 着 时 间 推 移 不 断 地 改进 它 ， 这 样 在 项 目的 最 后 阶段 ， 最 后 演示 文 术 
的 大 部 分 就 已 经 完成 了 。 这 种 方法 也 减少 了 团队 成 员 忘 记 在 项 目 中 发 现 的 关键 论点 或 关键 见 角 
的 几率 。 最 后 ， 它 也 减少 了 在 项 目 结束 时 花 在 演示 文档 上 的 工作 量 。 


12.2.1 为 多 个 受众 群体 创建 核心 材料 


为 项 目的 一 些 部 分 可 以 被 不 同 的 受众 所 用 , 因此 创建 项 
来 为 技术 受众 或 执行 项 目 发 起 人 创建 演示 文档 。 

& 12.1 所 示 为 分 别 为 项 目 发 起 人 和 分 析 师 所 做 的 最 终 演示 文档 的 主要 部 分 。 需 要 注意 的 是 ， 
列队 可 以 针对 这 7 个 领域 创建 一 组 核心 的 材料 。 三 个 领域 (项 目 目标 、 主 要 发 现 和 模型 描述 ) 
可 以 同时 用 在 这 两 种 演示 文档 。 其 他 领域 需要 进一步 的 阐述 ， 比 如 方法 。 在 其 他 领域 中 ， 例 如 
关键 论点 ， 需 要 为 分 析 师 和 数据 科学 家 以 及 为 项 目 发 起 人 提供 不 同 级 别 的 细节 。 最 终 演示 文档 
中 的 每 个 主要 部 分 会 在 后 续 小 节 进 行 讨论 。 
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关 的 核心 材料 是 很 有 帮助 的 ， 



























































































































































































































































































































































表 12.1 项 目 发 起 人 演示 文档 和 分 析 师 演示 文档 的 比较 
演示 文档 的 构成 项 目 发 起 人 演示 文档 分 析 师 演示 文稿 









































































































































































































































































































































项 目 目标 列举 最 重要 的 3 一 5 个 商定 的 目标 

主要 发 现 强调 关键 信息 
Gm 

mm ops s beans 

模型 描述 建 模 技 术 的 概述 
显示 细节 以 支持 关键 论点 
关键 变量 的 图 形 化 及 其 含 
显示 模型 的 代码 或 主要 逻辑 ， 包 括 模 型 的 类 型 、 变 
量 ， 和 执行 模型 的 技术 与 得 分 数据 。 

"—— 省 略 这 部 分 ， 或 仅 高 层次 识别 关键 变量 及 其 影响 

讨论 上 § 述 预期 的 模型 性 能 和 任何 警告 

建 模 技术 的 详细 描述 


























讨论 变量 、 范 围 和 预测 能 力 





专注 于 业务 影响 ， 包 括 风 
Hn 险 和 投资 回报 率 —— M 、 5 

A BEE eps ITÄ d 
建议 给 发 起 人 提供 论据 来 帮助 为 建 模 或 在 生产 环境 中 进行 部 署 补充 建议 
其 在 组 织 内 进行 推广 
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12.2.2 项 目 目标 


最 终 演 示 文 档 的 项 起 人 和 分 析 师 来 讲 通 常 是 相同 或 类 似 的 。 对 于 每 
一 个 受众 ， 团 队 需 要 重申 项 目的 目标 ， 来 为 之 后 演示 文档 中 分 享 的 解决 方案 和 建议 葛 定 基础 。 
此 外 ， 文 档 的 目标 部 分 需要 确保 项 目 团 队 和 项 目 发 起 人 之 间 已 达成 共识 ， 并 确保 双方 随 着 项 
向 前 推进 始终 保持 一 致 。 一 般 来 说 ， 目 标 在 项 目的 早期 就 已 经 达成 共识 。 最 好 把 目标 写 下 来 
进行 分 享 ， 以 确保 目标 和 目的 都 能 很 清楚 地 被 项 目 团 队 和 项 目 发 起 人 所 理解 。 
图 12.5 和 图 12.6 所 示 为 项 目 目标 的 两 个 幻灯 片 实例 。 图 12.5 所 示 为 创建 一 个 预测 模型 来 
预测 客户 流失 的 三 个 目标 。 这 个 版 本 的 目标 要 点 是 强调 需要 做 什么 ， 而 不 是 为 什么 要 做 ， 后 者 
将 包括 在 另 一 个 版 本 中 。 
项 目 目标 


1. 开发 一 个 预测 模型 来 判断 哪些 客户 在 何 时 最 有 可 能 流失 
2， 模 型 的 预测 能 力 应 该 至 少 和 银行 现 有 的 客户 流失 预测 技术 一 样 好 















































DF 
: 
ani 
TN 
N 
oA 
E 
4 
= 
RE 





































































































































































































































































































































































































































































































































































































































































































































































































3. 模型 应 该 可 以 以 周 为 基础 ， 在 生产 环境 中 一 个 完整 的 数据 集 上 运行 
图 12.5 YoyoDyne 案例 研究 的 项 目 目标 幻灯 片 示例 

现状 和 项 目 目标 

现状 








1. YoyoDyne 银行 想 要 提升 净 现 值 (NPV) 和 客户 流失 率 

2. 最 近 90 天 内 ，YoyoDyne 失去 了 前 100 个 主要 客户 中 的 6 个 ,并 且 来 自 最 
大 竞争 对 手 的 竞争 正在 加 强 

3. 如 果 没 有 快速 的 补救 方案 ，YoyoDyne 有 失去 其 在 三 个 主要 市 场 中 主导 地 
位 的 危险 


















































YoyoDyne“ 流 失 项 目 ” 的 目标 

1. 开发 一 个 预测 模型 来 判断 哪些 客户 在 何 时 最 有 可 能 流失 

2. 模型 的 预测 能 力 应 该 至 少 和 银行 现 有 的 客户 流失 预测 技术 一 样 好 
3. 模型 应 该 可 以 以 周 为 基础 ， 在 生产 环境 中 一 个 完整 的 数据 集 上 运行 


12.6 YoyoDyne 案例 研究 的 状况 和 项 目 目标 幻灯 片 示 例 
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图 12.6 所 示 为 图 12.5 中 的 项 目 目 标的 一 种 变形 。 它 在 列 出 目标 之 前 先 总 结 了 当前 的 现状 。 
记 住 当 提供 最 终 演 示 文 档 时 ， 这 些 交 付 成 果 是 在 组 织 内 共享 的 ， 而 且 最 初 的 背景 很 有 可 能 会 丢 
失 ， 特 别 是 最 初 的 项 目 发 起 人 离开 组 织 或 者 改变 了 有 角色。 在 显示 ] 标 前 先 简要 概括 状况 是 
很 好 的 做 法 。 给 目标 幻灯 片 增加 现状 概述 会 使 它 变 得 更 加 复杂 。 团 队 需 要 确定 是 将 它 分 为 两 个 
单独 的 幻灯 片 还 是 放 在 一 起 ， 这 取决 于 最 后 演示 文档 的 受众 和 团队 的 风格 。 

撰写 现状 概述 的 简洁 方式 是 按 三 步 来 总 结 ， 如 下 所 示 。 

e 现状: 对 导致 分 析 项 目的 现状 给 出 一 句 话 概述 。 
















































































































































































EB 
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e 复杂 性 : 给 解决 这 一 现状 的 必要 性 给 出 一 句 话 概述 。 有 些 事情 已 经 迫使 组 织 在 此 时 决 
定 采 取 行 为 。 例 如 ， 可 能 银行 在 过 去 的 两 个 星期 内 失去 了 100 个 客户 ， 而 现在 被 指派 
解决 该 问题 ， 或 者 可 能 银行 在 过 去 三 个 月 内 被 最 大 的 竞争 对 手 抢 走 了 5 个 百分点 的 市 
场 份 额 。 通 常 这 句 话 表明 了 为 什么 要 在 这 个 时 候 开始 一 个 特定 的 项 目 ， 而 不 是 在 将 来 
的 某 个 模糊 时 间 开 始 。 

e BM: 对 复杂 性 的 影响 给 出 一 句 话 概述 。 例 如 ， 如 果 银 行 坟 能 解决 其 客户 流失 问题 ， 

那么 它 将 在 三 个 主要 市 场 中 失去 其 市 场 主 导 地 位 。 针 对 业务 影响 来 说 明 所 做 项 目的 紧 


迫 性 。 










































































































































































































































































































































































12.2.8 FERI 


写 一 篇 扎实 的 执行 总 结 来 描述 一 个 

中 繁忙 的 经 理 们 唯一 会 阅读 的 部 分 。 出 于 这 
阅读 执行 总 结 的 人 应 该 能 够 在 一 页 幻灯 片 里 把 握 项 目的 全 部 情况 和 关键 见解 。 此 外 ， 这 是 一 个 
为 执行 项 目 发 起 人 提供 论据 的 机 会 ， 他 们 可 以 用 来 将 项 作 推 广 到 客户 组 织 中 。 确 保 既 定性 
又 定量 地 衡量 项 目 结果 的 商业 价值 。 当 演示 文档 是 呈现 给 项 目 发 起 人 时 ， 这 相当 重要 。 对 发 起 
人 和 分 析 师 来 说 ， 包 含 主要 发 现 的 执行 总 结 幻 灯 片 是 一 般 相 同 的 。 

图 12.7 所 示 为 Yoyodyne 案例 研究 的 执行 总 结 的 幻灯 片 示例 。 需 要 仔细 其 酌 幻 灯 片 的 内 容 
以 确保 它 是 清晰 的 。 记 住 ， 这 不 是 表达 执行 总 结 的 唯一 格式 ; 它 根据 作者 的 风格 而 变化 ， 当 然 
执行 总 结 里 的 许多 关键 部 分 的 格式 是 通用 的 。 



















































































的 主要 结果 。 在 许多 情况 下 ,总 结 可 能 是 演示 文档 
个 原因 ， 它 必须 是 语言 清晰 、 简 洁 和 完整 的 。 那 些 













































































































































































































































































































































































































































































































































































































































































































































































执行 总 结 





每 天 使 用 社交 媒体 运行 早期 流失 警告 测试 能 减少 
30% 的 年 流失 率 ， 而 且 每 年 节省 450 万 美元 





”客户 改变 消费 习惯 后 60 天 内 的 流失 情况 


^. 
xi | 
a | 
- 旦 客户 停止 使 用 其 账户 购买 汽油 和 食品 ， s» N 
则 银行 的 开户 数 快 速 减 少 ， 客 户 流失 LE | 
E 
如 果 客 户 每 个 月 使 用 其 借 记 卡 的 次 数 少 于 5 次 ， — XE || 
那么 他 们 可 能 会 在 60 天 内 流失 a) “~~~. 
。 社 交 网 络 数据 和 现 有 的 CRM 数 据 结合 到 一 起 可 以 增加 M OD 


模型 预测 流失 客户 的 能 力 
我 们 可 以 准确 指出 银行 客户 的 社交 图 以 及 流失 客户 联系 人 的 影响 


使 用 CRM 数 据 ， 我 们 可 以 识别 出 20% 的 流失 客户 ; 添加 上 社交 媒体 数据 后 ， 
该 数值 可 以 提升 到 30% 


”模型 的 运行 时 间 为 分 钟 级 别 ， 而 不 是 现在 的 以 月 为 周期 














图 12.7 ToyoDync 案例 研究 的 执行 总 结 幻灯 片 示例 
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在 幻灯 片 中 , 关键 信息 应 该 是 清晰 和 明显 的 。 它 可 以 用 颜色 或 底 纹 来 区 
也 可 以 使 用 其 他 技术 吸引 人 们 的 注意 力 。 管 理 人 员 或 项 目 发 起 人 从 项 目 中 获得 
成 为 一 个 单独 的 论据 ， 用 来 支持 团队 推荐 的 试点 项 目 ， 所 以 需要 是 简洁 和 引入 六 
息 尽 可 能 地 掷地有声 ， 需 要 衡量 工作 的 价值 ， 并 量化 节省 的 成 本 、 收 入 、 节 省 
处 ， 来 使 业务 影响 具体 化 。 
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HAI 12.8 所 示 ; 
关键 信息 可 能 
目的 。 要 使 信 
时 间或 其 他 好 
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执行 总 结 的 剖析 


业务 影响 [SN 
执行 总 结 


关键 信息 A 


| 每 天 使 用 社交 媒体 运行 早期 流失 警告 测试 能 减少 








å TR | 
“ 且 客 户 停止 使 用 其 账户 购买 汽油 和 食品 ， 3 x | 
则 银行 的 开户 数 快 速 减少 ， 客 户 流失 a= | 
如 果 客户 每 个 月 使 用 其 借 记 卡 的 次 数 少 于 5 次 , x E IN 
那么 他 们 可 能 会 在 60 天 内 流失 22 | 人 一 一 
主要 观点 — “社交 网 络 数据 和 现 有 的 CRM 数 据 结合 到 ti OD 


一 起 可 以 增加 模型 预测 流失 客户 的 能 力 
我 们 可 以 准确 指出 银行 客户 的 社交 图 以 及 流失 客户 联系 人 的 影响 


使 用 CRM 数 据 ， 我 们 可 以 识别 出 20% 的 流失 客户 ; 添加 上 社交 媒体 数据 后 ， 
服务 等 级 该 数值 可 以 提升 到 30% 
约定 (SLA) - 模型 的 运行 时 间 为 分 钟 级 别 ， 而 不 是 现在 的 以 月 为 周期 











图 12.8 ”执行 总 结 幻灯 片 剖析 
























































关键 信息 之 后 是 三 个 主要 论据 。 虽 然 执行 总 结 幻灯 片 可 以 有 三 个 以 上 的 观点 ， 但 是 超过 三 
个 会 使 得 人 们 难以 记 住 要 点 ， 所 以 要 确保 要 点 清晰 并 且 只 列 出 最 有 影响 力 的 和 团队 希望 受众 能 
记 住 的 要 点 。 如 果 作 者 列 出 了 十 个 要 点 ,信息 就 会 被 稀释 ， 受众 可 能 只 记得 了 其 中 的 1 到 2 个 
要 点 。 

此 外 ， 因 为 这 是 一 个 分 析 项 目 ， 因 此 要 确保 要 点 与 “工作 是 否 满足 发 起 人 的 服务 等 级 约 
定 (SLA) 或 期 性， 以 及 满足 的 程度 如 何 ”相关 联 。 传 统 上 ，SLA 是 指 提供 服务 的 人 , 如 IT 
司 ， 与 最 终 用 户 或 者 客户 之 间 的 协议 。 在 本 例 中 ，SLA 主要 指 系统 性 能 、 系 统 
的 期 望 运行 时 间 ， 以 及 其 他 约束 。 这 个 术语 不 是 那么 正式 ， 很 多 情况 下 表述 的 是 通常 与 性 能 
或 及 时 性 有 关 的 系统 性 能 或 期 望 。 正 是 因为 这 样 SLA 才 被 用 在 这 里 。 即 在 这 种 情况 下 ，SLA 
指 的 是 系统 的 预期 性 能 ， 以 及 在 将 开发 的 模型 集成 到 某 个 系统 中 时 ， 不 会 对 系统 的 预期 性 能 
产生 不 利 影响 。 
最 后 ， 尽 管 这 不 是 必需 的 ， 但 是 用 可 视 化 或 图 形 来 支持 要 点 是 一 个 很 好 的 想法 。 可 视 化 图 





































































































































































































































































































































































































































































































































































































































































































































































































12.2 ”创建 最 终 可 交付 成 果 









































像 可 以 使 信息 相互 关联 并 有 助 于 读者 获取 主要 信息 。 
























































12.2.4 方法 


在 演示 文档 的 方法 部 分 ,团队 需要 解释 项 目 中 所 使 用 的 方法 。 这 可 以 包括 领域 专家 的 访谈 、 

组 织 内 的 团队 协作 ， 以 及 关于 解决 方案 的 一 些 陈述 。 这 张 幻灯 片 的 目的 是 确保 受众 了 解 行动 的 

过 程 。 还 应 包括 与 团队 遵循 的 工作 假设 有 关 的 任何 附加 评论 ， 因 为 这 在 为 团队 遵循 的 特定 行动 

辩护 时 相当 关键 。 

在 向 项 目 发 起 人 解释 解决 方案 的 时 候 ， 讨 论 应 该 保持 在 一 个 高 的 层次 。 如 果 是 向 分 析 师 或 
H 




















































































































































































































































































































数据 科学 家 阐述 的 话 ， 就 需要 提供 与 所 用 模型 类 型 有 关 的 额外 细节 ， 包 括 技术 以 及 模型 在 测试 
期 间 的 真实 性 能 。 最 后 ， 作 为 方法 描述 的 一 部 分 ， 团 队 可 能 要 提 到 系统 、 工 具 或 现 有 流程 的 约 
束 ， 以 及 在 项 目 中 更 改 约束 的 意义 。 

图 12.9 所 示 为 在 一 个 数据 科学 项 目 中 如 何 向 发 起 人 描述 所 用 方法 的 例子 
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方法 (针对 发 起 人 ) 
* 与 零售 贷款 团队 的 14 名 成 员 交谈 ， 理 解 YoyoDyne 针 对 留守 客户 的 贷款 
策略 与 营销 实践 
”与 IT 部 门 协作 ， 识 别 相关 的 数据 集 ， 评 估 数 据 的 质量 与 可 用 性 
”开发 流失 模型 ， 识 别 最 有 可 能 离开 银行 的 客户 

识别 最 有 影响 的 因素 


在 分 析 客 户 流失 的 不 同 因 素 时 ， 能 提供 更 为 强大 的 解释 
* 挖掘 并 增加 社交 媒体 数据 来 改进 模型 的 预测 能 力 


* 和 IT 部 门 一 起 合作 ， 在 YoyoDyne 的 生产 环境 中 模拟 模型 性 能 
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12.9 为 项 目 发 起 人 描述 项 目 方法 的 例子 




































































注意 第 三 个 条 目 概述 了 客户 流失 的 模型 。 此 外 ， 其 子 条 目 通过 非 技术 术语 提供 了 更 多 的 乡 
节 。 将 该 方法 与 图 12.10 中 的 方法 进行 比较 。 
图 12.10 所 示 为 在 数据 科学 项 目 中 使 用 方法 和 方法 论 的 一 种 变 体 。 在 这 个 例子 中 ， 大 多 数 
语言 和 描述 与 图 12.9 中 的 例子 相同 。 主 要 的 区 别 是 图 12.10 包含 了 更 多 模型 本 身 以 及 对 模型 快 
速 评 佑 以 满足 SLA 的 方法 的 细节 。 这 些 区 别 在 图 12.10 中 以 框图 的 形式 来 显示 
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方法 〈 针 对 分 析 师 ) 
“与 零售 贷款 团队 的 14 名 成 员 交 谈 ， 理 解 YoyoDyne 针 对 留守 客户 的 贷款 策略 与 
营销 实践 


”与 IT 部 门 协作 ， 识 别 相关 的 数据 集 ， 评 估 数 据 的 质量 与 可 用 性 


* 使 用 通用 附加 建 模 (Generalized Addictive Modeling) 技术 用 R 语 言 开 发 流失 模型 
最 小 化 变量 转化 和 分 箱 (binning) 


在 分 析 客 户 流失 的 不 同 因素 时 ， 能 提供 更 为 强大 的 解释 
”检测 社交 网 络 变量 的 影响 并 发 现 它 有 助 于 识别 潜在 的 流失 客户 








* 和 IT 部 门 一 起 台 作 ， 在 YoyoDyne 的 生产 环境 中 模拟 模型 性 能 


| * 可 以 借助 SQL 在 数据 库 中 的 大 型 数据 集 上 快速 评估 该 模型 








图 12.10 ”为 分 析 师 和 数据 科学 家 描述 项 目 方法 的 例子 














12.2.5 ”模型 描述 

















在 描述 了 项 目 方法 之 后 ， 团 队 通 常 需要 描述 所 用 到 的 模型 。 图 12.11 所 示 为 Yoyodyne 银行 
















































































示例 的 模型 摘 





















































XR. 虽然 模型 描述 幻灯 片 对 于 所 有 受众 可 以 都 是 相同 的 ， 但 是 他 们 的 关注 点 和 


















































是 不 同 的 。 
EJ kn] 
















































































对 发 起 人 来 说 ， 需 要 知道 大 概 的 方法 而 无 需 过 多 的 细节 。 传 达 团 队 工 作 中 所 遵循 
以 让 发 起 人 更 容易 与 组 织 内 其 他 人 沟通 并 提供 论据 。 

































































模型 描述 


”基本 方法 的 概述 : 预测 每 个 客户 流失 的 可 能 性 。 识 别 具 有 高 流失 可 能 性 的 客户 ， 随 后 和 
真正 流失 结果 进行 比较 ， 来 训练 算法 ， 并 对 现 有 客户 启用 预测 
”模型 : 逻辑 回归 模型 
° AN 二 进 制 变量 ， 表 示 流 失 / 没 有 流失 
”范围 
500000 个 Yoyodyne 银 行 的 客户 ， 基 于 2011 年 1 月 31 日 之 后 的 一 个 150 天 周期 的 流失 情况 
包含 到 2011 年 6 月 30 日 为 止 所 有 流失 客户 的 500000 个 客户 ， 加 上 45000 个 账户 的 随机 抽样 
截至 2011 年 1 月 31 日 ， 所 有 选择 的 客户 是 活动 (Active) s FPF (Suspended) 或 待定 (Pending) 
从 通话 数据 记录 仓库 中 抽取 客户 在 2011 年 ! 月 31 日 至 2011 年 6 月 30 日 之 问 的 的 通话 历史 细节 数据 
”抽样 
训练 样本 : S0000 签 约 者 
测试 样本 : 100000829 4% 
”所 开发 建 模 的 预测 能 力 至 少 和 银行 现 有 的 流失 模型 一 样 好 
我 们 在 没有 社交 网 络 变量 的 情况 下 生成 了 一 个 基线 模型 ， 银 行 的 营销 分 析 团 队 证 实 模型 的 预测 能 力 至 少 
和 现 有 懂 型 一 样 好 
社交 网 络 变量 被 加 入 模型 后 ， 预 测 能 力 增 加 


图 12.11 数据 科学 项 目的 模型 描述 示例 


12.2 ”创建 最 终 可 交付 成 果 
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那么 提 及 模型 在 测 记 
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12.2.6 ”有 数据 支持 的 关键 论点 
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说 明 数 据 并 使 受众 理 名 
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后 续 的 建议 提供 了 数据 和 基础 。 创 建 清 
议 更 可 信 ， 更 可 能 被 客户 或 发 起 人 所 采 纠 


可 以 使 得 
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关键 点 
实施 一 个 早期 的 流失 模型 可 以 识别 30% 的 可 能 流失 的 客户 


最 可 能 流失 的 客户 基础 模型 识别 的 前 5% 
易 流失 客户 


所 有 客户 
Sep 
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12.12 ”数据 科学 项 目 











的 关键 论点 示例 ， 以 条 形 








于 不 

















第 12 章 结尾 



































为 了 给 分 析 师 演示 ， 使 用 更 为 精细 或 技术 性 的 图 形 和 图 表 。 在 这 种 情况 下 ， 适 当 的 可 视 化 
















































































































































































视 化 的 基本 概念 在 本 竟 后 面 讨论 。 























12.2.7 ”模型 细节 








技术 包括 点 图 、 密 度 图 、ROC 曲线 图 或 可 以 支持 建 模 技术 所 做 决策 的 数据 分 布 = 。 数 据 可 































































































































































































那些 比 发 起 人 有 更 多 技术 背景 的 人 ， 比 如 编写 代码 的 人 ， 或 是 分 析 团 队 中 的 其 他 同事 ， 通 
常 需要 更 多 的 细节 。 项 目 发 起 人 通常 对 模型 的 细节 不 太 感 兴趣 ， 他 们 更 关注 于 分 析 工 作 的 商业 





影响 。 演 示 文 档 中 的 模型 细节 部 分 需要 显示 代码 或 模型 的 主 逻 辑 ， 包 括 模型 类 型 、 变 量 和 用 于 








































































































pue 4 和 评估 数据 的 相 KBR. 演示 文档 中 的 这 部 分 应 该 关注 描述 模型 的 预期 性 能 和 与 模型 
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由 有 关 的 讨论 和 与 模型 主 逻 辑 有 关 的 影响 。 上 上 














围 和 模型 的 预 


模型 中 使 用 的 变量 相关 的 讨论 或 书面 细节 ， 并 解释 如 何 或 为 何 选择 
分 享 实际 开发 的 代码 (或 至 少 是 代码 片段 ) 来 解释 代码 产生 了 什么 


UL 















































































































































比 部 分 来 说 明 关键 变量 的 细节 和 模型 的 预测 能 
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模型 细节 


”候选 变量 : CRM 中 的 22 个 、 通 话 记录 里 的 154 个 、 社 交 网 络 变量 里 的 12 个 
”通过 PCA 和 与 领域 专家 的 讨论 ， 我 们 把 近 190 个 变量 减少 到 了 9 个 最 能 预测 客户 流失 的 变量 


”在 R 中 构建 通用 附加 模型 : 
gam.wsn.by2 <- bam(volchum.120.p^ 
s(var1, bsz "cs"; byzc30,kzlength(custom.knots)) 
*s(var2 , bsz "cs" by=c30) 
+s(var3, bsz "cs", kz5) 

*s(var4 ,bsz"cs" kz5 byzc30) 
*s(tvarS ,bsz "cs", k=5) 

+voré 

+var7 

* s(var8) 

* s(var9), 

knotszlist(var1 custom knots), 


dataztrain df familyzbinomial, weight=weight, gamma 1.4 ) 





图 12.13” 带 有 模型 类 型 和 变量 的 模型 细节 示例 





外 ,借助 于 面向 分 析 的 图 形 和 图 表 ， 如 直方 图 、 点 图 、 密 度 图 和 ROC 曲线 等 ， 财 队 还 可 以 使 用 
组 





到 12.13 所 示 为 描述 数据 变量 的 幻灯 片 示 例 , 而 图 12.14 所 示 为 辅助 技术 图 表 的 幻灯 片 示 例 。 
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变量 1 对 流失 图 有 一 个 较 大 和 较 早 的 影响 
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变量 1 
红色 : 流失 图 
黑色 : 所 有 其 他 图 形 











图 1214 ”比较 两 个 数据 变量 的 模型 细节 







































































作为 模型 细节 描述 的 一 部 分 ， 应 该 就 模型 在 测试 环境 中 的 运行 速度 、 模 型 在 真实 生产 环境 
中 的 预期 性 能 以 及 所 使 用 的 技术 方面 提供 指导 。 这 类 讨论 解释 模型 如 何 满足 组 织 的 SLA。 

这 部 分 的 演示 文档 需要 包含 一 些 额 外 的 和 警告、 假设 或 模型 及 模型 性 能 的 约束 ， 比 如 模型 所 
交互 的 系统 或 数据 、 性 能 问题 ， 以 及 将 模型 的 给 出 导入 到 现 有 业务 流程 的 方法 。 这 部 分 演 
示 文 档 的 作者 需要 描述 与 项 目 目标 相关 的 主要 变量 之 间 的 关系 ， 比 如 关键 变量 预测 客户 流失 的 
效果 、 关 键 变量 和 和 其 他 变量 之 间 的 关系 。 团 队 甚 至 可 能 要 提出 改善 模型 的 建议 ， 突 出 任何 将 
偏见 引入 到 建 模 技术 中 的 风险 ， 或 者 描述 可 能 影响 总 体 预 测 能 力 的 数据 段 。 


























































































































































































































































































































































































































12.2.8 建议 


演示 文档 的 最 后 一 个 主要 成 分 涉及 创建 一 系列 建议 ， 包 括 如 何 从 商业 角度 在 组 织 内 部 署 模 
型 以 及 部 署 模型 逻辑 的 其 他 建议 。 对 于 YoyoDyne 银行 的 例子 , 图 12.15 描述 了 项 目 中 给 出 的 建 
议 。 在 演示 文档 的 这 一 部 分 ， 关键 是 衡量 改进 的 影响 并 在 建议 中 说 明 如 何 利 用 这 些 影 响 。 例 如 ， 
演示 文档 中 可 能 会 提 到 ， 每 成 功 挽 留 一 个 客户 代表 为 银行 的 一 个 客户 经 理 节 省 了 6 个 小 时 的 时 
闻 ， 或 者 是 节省 了 获取 一 名 新 客户 所 需要 花费 的 50000 美元 ， 包 括 营销 费用 、 销 售 和 系统 相关 
的 成 本 。 

对 于 要 呈现 给 项 目 发 起 人 的 演示 文档 ， 要 着 重 于 项 目的 业务 影响 , 包括 风险 和 投资 回报 率 。 
为 项 目 发 起 人 最 感 兴趣 的 是 项 目 对 业务 的 影响 ， 演 示 文 档 还 应 该 为 发 起 人 提供 可 以 在 组 织 内 
推广 工作 的 论据 。 当 为 分 析 师 准备 演示 文档 时 ， 需 要 补充 建 模 或 在 生产 环境 中 部 署 模型 的 影响 。 
无 论 是 建 模 还 是 在 生产 环境 中 部 署 模 型 ， 团 队 都 应 该 着 重 于 工作 实施 所 要 采取 的 行动 ， 以 及 客 
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户 采 纳 这 些 建 议会 得 到 的 好 处 。 








建议 


”在 更 大 规模 的 部 署 之 前 ， 实 现 模型 的 试点 项 目 一 一 在 试点 项 目 中 测试 性 能 与 准确 度 


迅速 解决 这 些 问 题 可 以 挽留 住 更 多 的 客户 ， 并 防止 可 能 导致 更 多 客户 流失 的 
情况 出 现 


可 以 基于 该 模型 建立 一 个 早期 的 流失 警告 触发 器 
* 每 天 或 者 每 周 运行 预测 模型 可 以 积极 防止 客户 流失 
在 数据 库 内 可 以 以 分 钟 级 别 评估 大 型 数据 集 ， 而 且 可 以 每 天 运行 


通过 早期 警告 触发 器 保留 的 每 个 客户 可 以 节省 4 小 时 的 挽留 账户 的 时 间 ， 以 
及 用 来 获取 每 一 位 新 账户 所 需 的 50000 美 元 


开发 目标 客户 调研 来 研究 流失 原因 ， 这 可 以 收集 数据 来 研究 早期 流失 的 原因 














图 12.15 ”数据 科学 项 目的 建议 示例 











12.29 ”关于 最 终 演示 文档 的 额外 提示 


当 团 队 完 成 一 个 项 目 并 移动 到 下 一 个 的 时 候 ， 必 须 记 住 在 开发 最 终 的 演示 文档 时 要 花费 
足够 的 时 间 。 为 受众 提供 项 目的 上 下 文 很 重要 。 有 时 ,团队 太 沉 漫 在 项 目 中 会 使 得 它 无 法 为 
建议 和 模型 的 输出 提供 足够 的 上 下 文 。 团 队 需 要 罗列 出 术语 和 缩 略 词 ， 避 免 过 度 使 用 行 话 。 


还 应 该 牢记 演示 文档 可 能 被 广泛 地 分 享 ， 因 此 读者 可 能 并 不 熟悉 上 下 文 和 团队 经 历 整个 项 






























































































































































































































































































































































项 目的 情况 可 能 需要 对 不 同 的 受众 讲 很 多 次 ， 所 以 团队 必须 在 重复 一 些 关 键 信息 时 保持 耐 
心 。 这 些 演示 文档 应 该 被 看 作 完 善 关 键 信息 和 推广 已 完成 工作 的 机 会 。 截 至 目前 ， 

了 许多 时 间 工 作 并 发 现 了 商业 见解 。 这 些 演示 文档 是 沟通 这 些 项 目 并 为 后 续 项 目 获 得 支持 的 机 

会 。 与 大 多 数 的 演示 文档 一 样 ， 要 根据 受众 的 背景 来 其 酌 信 息 及 其 详细 程度 。 下 面 是 一 些 在 开 

发 文档 时 会 用 到 的 技巧 。 

e ”使 用 图 像 和 视觉 呈现 : 视觉 效果 往往 能 使 演示 文档 更 引信 注目 。 同 时 ， 和 信 们 觉得 图 像 

比 文字 更 好 记 ， 因 为 图 像 能 有 更 多 的 视觉 冲击 。 这 些 视觉 呈现 可 以 是 静态 的 和 交互 式 

的 数据 。 

© 确保 内 容 是 互 不 相交 和 没有 遗漏 的 : 这 意味 着 演示 文档 的 文字 会 比较 简练 ， 并 确保 履 

盖 了 关键 论点 ， 而 且 不 重复 。 

e 衡量 和 量化 项 目的 效益 : 这 相当 有 挑战 性 ， 而 且 需 要 时 


































































































































































































































































































































































































































































































































































































间 和 努力 才能 做 得 好 。 这 种 衔 














12.2 ”创建 最 终 可 交付 成 果 



































量 应 该 试图 用 特定 的 方法 来 量化 财务 收益 和 其 他 收益 。 与 项 目 有 “巨大 的 价值 ” 相 比 ， 
阐述 该 项 目 “ 每 年 能 节省 850 万 美元 的 成 本 ”更 引 人 注 目 。 
e 使 项 目的 效益 清晰 和 突出 : 在 计算 完 项 目的 效益 后 , 要 确保 在 演示 文档 中 清晰 地 表达 出 来 。 





































































































































































































12.2.10 ”提供 技术 规范 和 代码 


除了 编写 最 终 的 演示 文档 以 外 ， 团 队 也 需要 提供 实际 开发 的 代码 和 相关 的 技术 文档 。 团 队 
应 该 考虑 项 目 将 如 何 影 响 最 终 用 户 和 需要 实施 代码 的 技术 人 员 。 建 议 该 团队 考虑 其 工作 对 代码 
接收 者 的 影响 、 他 们 会 提 的 各 种 问题 ， 以 及 他 们 的 利益 。 例 如 ， 如 果 模 型 需要 执行 实时 监控 ， 
这 可 能 导致 IT 运行 环境 需要 做 大 量 的 改变 , 所 以 团队 可 能 需要 考虑 一 个 折 中 一 一 采用 夜间 批 处 
理 的 方式 来 处 理 数据 。 此 外 ， 团 队 还 需要 让 技术 团队 与 项 目 发 起 人 进行 交流 ， 以 确保 在 技术 部 
署 时 ， 实 施 和 SLA 能 满足 业务 需求 。 

团队 应 该 预见 IT 会 提出 有 关 在 生产 环境 中 运行 模型 的 计算 代价 的 问题 。 如 果 可 能 的 话 , 说 明 
该 模型 在 测试 场景 中 的 运行 情况 以 及 是 否 有 调整 模型 或 环境 的 可 能 ， 以 优化 模型 在 生产 环境 中 的 





















































































































































































































































































































































































































































































































































列队 应 该 以 类 似 应 用 编程 接口 ( API ) 的 方式 为 其 代码 编写 技术 文档 。 很 多 情况 下 ， 模 型 被 
封装 为 函数 ， 在 生产 环境 中 读 取 一 组 输入 ， 对 数据 进行 可 能 的 预 处 理 ， 并 创建 包括 一 组 处 理 后 
结果 的 输出 。 

考虑 一 个 过 去 与 这 个 数据 科学 项 目 并 无 交集 的 技术 人 员 为 了 能 够 实现 分 析 模 型 所 需 知 道 的 
输入 、 输 出 和 其 他 的 系统 限制 。 把 文档 作为 介绍 模型 所 需 的 数据 、 所 用 逻辑 ， 以 及 其 他 相关 
型 如 何在 生产 环境 中 与 模型 交互 的 方法 。 这 种 规范 详细 说 明了 代码 所 需 的 输入 以 及 数据 格式 与 
: HH， 可 以 指定 是 否 需 要 结构 化 数据 ， 或 者 预期 数据 应 该 是 数值 型 还 是 字符 型 。 描 述 在 
代码 使 用 输入 数据 之 前 需要 对 输入 数据 所 做 的 任何 转换 , 以 及 是 否 创建 了 脚本 来 执行 这 些 转 换 。 
如 果 和 当 环 境 发 生变 化 ， 且 其 他 工程 师 必须 修改 代码 或 使 用 不 同 的 数据 集 和 数据 表 时 ， 这 些 旨 
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节 变 得 相当 重要 。 
关于 异常 处 理 ， 团 队 必 须 考虑 代码 应 该 如 何 处 理 模型 参数 预期 数据 范围 之 外 的 数据 ，" 




















































































































及 代码 将 如 何 处 理 缺 失 的 数据 值 ( 见 第 3 章 )、 空 值 、 零 、NA， 或 是 具有 出 乎 意料 的 格式 或 
类 型 的 数据 。 技 术 文 档 描述 了 如 何 对 待 这 些 异常 以 及 会 对 后 续 流 程 产生 什么 影响 。 对 于 模型 
输出 ， 团 队 必须 解释 要 对 输出 做 何 种 程度 的 再 加 工 。 例 如 ， 如 果 模 型 返回 的 值 表 示 客 户 流失 
的 概率 ， 那 可 能 需要 额外 的 处 理 逻 辑 来 找到 阔 值 ， 以 确定 哪些 客户 账户 会 被 标记 为 有 流失 的 
风险 。 此 外 ,无 论 是 以 自动 学 习 的 方式 还 是 以 人 为 干预 的 方式 ， 都 应 该 留 有 余地 来 调整 闵 信 
和 训练 算法 。 
虽然 团队 必须 创建 技术 文档 ， 但 是 很 多 情况 下 工程 师 和 其 他 技术 工作 人 员 在 拿 到 代码 后 ， 
可 能 会 在 没有 通读 文档 的 情况 下 尝试 使 用 它 。 因 此 , 在 代码 中 添加 详细 的 注释 也 是 十 分 重要 的 。 
注释 可 以 指导 人 们 如 何 执行 代码 、 解 释 代 码 逻 辑 ， 并 帮助 他 人 阅读 代码 ， 直 到 熟悉 为 止 。 如 果 
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列队 可 以 在 代码 中 很 好 地 添加 注释 ， 那 么 将 会 更 便于 别人 维护 代码 和 在 运行 环境 中 调试 代码 。 
比 外 ， 在 环境 发 生变 化 时 或 者 工程 师 需 要 修改 代码 的 输入 或 输出 部 分 时 ， 注 释 将 会 很 有 帮助 。 








































































































12.3 数据 可 视 化 基础 































































































































































































































































































































































































随 着 数据 量 的 不 断 增 加 ， 更 多 厂商 和 社区 正在 开发 工具 来 创建 清晰 有 力 的 图 形 ， 以 便 在 数 
据 表 示 和 应 用 中 使 用 。 表 12.2 列 出 了 一 些 常 见 的 工具 。 
表 12.2 数据 可 视 化 的 常见 工具 
开源 工具 商业 工具 
R《〈 基 础 包 、lattice、ggplot2 ¢ Tableau 
GGobi/Rggobi Spotfire (TIBCO) 
Gnuplot Qlik View 
Inkscape Adobe Illustrator 
Modest Maps 
OpenLayers 
Processing 
D3.js 
Weave 
随 着 数据 量 与 数据 复杂 度 的 增加 , 用 户 变 得 更 加 依赖 使 用 清晰 的 视觉 效果 来 说 明 主要 观点 ， 
以 简单 的 方式 来 描述 丰富 数据 。 随 着 时 间 的 推移 ， 开 源 社 区 已 经 开发 了 许多 库 ， 为 可 视 化 地 









































































































































描述 图 形 数 据 提供 了 更 多 选择 。 虽然 本 书 中 的 示例 主要 使 用 了 R 的 基础 包 ，ggplot2 包 为 创建 具 
有 专业 外 观 的 数据 可 视 化 提供 了 额外 的 选择 ，lattice 库 也 是 如 此 。 
Gnuplot 和 GGobi 都 以 命令 行 驱动 的 方式 来 生成 数据 可 视 化 。 这些 工具 主要 源 于 科学 计算 

^ R 






























































































































































和 对 复杂 数据 的 直观 表达 的 需求 。GGobi 还 有 一 个 变种 叫做 Rggobi， 它 允许 用 户 可 以 通过 
语言 调用 GGobi。 许 多 开源 绘图 工具 ， 包 括 Modest Maps 和 OpenLayers, ， 都 是 为 希望 创建 交 
互 地 图 并 集成 到 他 们 的 开发 项 目 或 者 网 页 中 的 开发 者 所 设计 的 。 软 件 编程 开发 环境 
Processing， 采 用 了 一 种 类 似 于 Java 的 语言 ， 让 开发 人 员 创 建 具 有 专业 外 观 的 数据 可 视 化 。 因 
为 它 基 于 一 种 编程 语言 而 不 是 GUI, 因此 Processing 语言 可 以 允许 开发 人 员 创 建 健 壮 的 可 视 化 

精确 地 控制 输出 。D3.js 是 一 个 JavaScript 库 ， 用 于 处 理 数 据 并 创建 基于 Web ( 例如 HTML、 
SVG 和 CSS 等 标准 ) 的 可 视 化 。 关 于 使 用 开源 可 视 化 工具 的 更 多 示例 ， 请 参考 Nathan Yau 的 
网 站 flowingdata.com[1] ， 或 者 他 的 书 Visualize This[2]， 该 书 讨 论 了 使 用 开源 工具 创建 数据 表 
示 的 其 他 方法 。 
就 表 12.2 中 所 示 的 商业 工具 来 说 ，Tableau Spotfire (TIBCO ) 和 QlikView 既是 数据 可 
视 化 工具 又 是 交互 式 的 商业 智能 (BI) 工具 。 由 于 数据 在 过 去 几 年 中 的 增长 ， 许 多 公司 开始 
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重视 BI 的 易 用 性 和 可 视 化 ， 而 且 重 视 程度 其 于 传统 的 BI 工具 和 数据 库 。 比 起 它们 的 前 辈 ， 
这 些 工 具 让 可 视 化 变 得 简单 ， 而 且 其 用 户 界面 更 加 清晰 与 容易 浏览 。 表 12.2 中 列 出 的 Adobe 
Ilustrator， 虽 然 在 传统 意义 上 不 被 当做 数据 可 视 化 工具 ， 但 是 一 些 专业 人 士 使 用 它 来 加 强 其 
他 工具 生成 的 可 视 化 。 例 如 ， 有 些 用 户 通过 R 语言 开发 了 一 个 简单 的 数据 可 视 化 ， 将 图 像 保 
存 为 PDF 文件 或 者 JPEG， 然 后 使 用 Illustrator 这 样 的 工具 来 提高 图 形 的 质量 ， 或 将 多 个 可 视 
化 作品 合并 到 一 个 信息 图 (infographic ) 中 。Inkscape 是 一 个 类 似 用 途 的 开源 工具 ， 包 含 许多 
Illustrator 具有 的 功能 。 
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12.31 有 数据 支持 的 要 点 
当 数 据 在 表 中 而 不 是 图 中 的 时 候 , 更 难 观察 到 重要 的 见解 。 为 了 强调 这 一 点 ，Gene Zelazny 
JE Say it with Charts 中 提 到 [3]， 为 了 突出 数据 ， 最 好 创建 出 数据 的 可 视 化 表示 ， 比 如 图 表 

或 其 他 数据 可 视 化 。 反 过 来 ,假设 一 位 分 析 员 选择 淡化 ( downplay ) 数据 。 以 数据 表 的 方 




























































































































































































































































































式 共享 数据 时 ， 可 以 引起 较 少 的 关注 ， 使 得 它 难 以 被 人 挖掘 。 
可 视 化 中 配色 方案 、 标 签 和 信息 顺序 的 选择 会 影响 受众 如 何 处 理 信 息 ， 以 及 受众 会 将 什么 
当做 图 中 的 关键 信息 。 图 12.16 中 包含 了 许多 数据 点 。 由 于 信息 的 布局 ， 很 难 对 关键 点 一 目 ] 










































































然 。 通 过 图 12.16 观察 45 年 的 开店 数据 是 很 大 的 挑战 。 


























1 5 4 4 14 13 14 20 14 17 29 24 37 33 117 42 65 79 81 90 92 82 86 106 72 62 62 40 49 22 26 33 47 78 71 67 6 91 91 33 1980 
BigBox 1 1.1 3 4 5 5 5 10 10 10 6 21 33 21 22 20 29 31 SO 43 4$ 72 91 76 94 67 BO 31 34 33 33 27 35 47 32 39 27 41196 
Total 1 113 2 5 S S 15 17 19 2S 19 27 39 34 43 S4 150 63 87 99 110 121 142 125 131 178 163 138 156 107 129 53 60 66 80 105 106 114 96 130 118 37 3176 


图 12.16 45 年 的 开店 数据 


即使 显示 少 一 些 的 数据 ， 对 很 多 人 来 说 依然 难以 阅读 。 图 12.17 隐藏 了 前 10 年 的 数据 
在 表格 内 留 下 了 35 年 的 数据 。 


















































SuperBox 13 14 20 14 17 29 24 37 33 117 42 65 79 81 90 92 82 86 106 72 62 62 40 49 22 26 33 47 78 71 67 64 91 91 33 1980 
BigBox 4 5 S S5 10 10 10 6 21 33 21 22 20 29 31 50 43 45 72 91 76 94 67 80 31 34 33 33 27 35 47 32 39 27 4 1196 
Total 17 19 25 19 27 39 34 43 54 150 63 87 99 110 121 142 125 131 178 163 138 156 107 129 53 60 66 80 105 106 114 96 130 118 37 3176 


图 12.17 35 年 的 开店 数据 


大 多 数 读 者 会 观察 到 ， 即 使 在 相对 较 小 的 规模 ， 理 解数 据 也 很 有 挑战 性 。 如 果 一 个 人 仔 旨 
数据 表 ， 那 么 可 能 会 有 若干 发 现 。 
€ BigBox 在 20 世纪 80 年 代 和 90 年 代 增 长 强劲 。 

e 在 20 世 纪 90 年 代 之 前 ，BigBox 在 其 连锁 店 体系 中 增加 了 的 SuperBox 店铺 
@ SuperBox 的 总 数 超过 BigBox， 比 例 接 近 2:1。 
取决 于 试图 突出 的 重点 ， 分 析 师 必须 注意 以 一 种 直观 的 方式 组 织 信 息 ， 使 受众 能 够 获得 和 
作者 意图 相同 的 要 点 。 如 果 分 析 师 不 能 有 效 地 做 到 这 一 点 ， 数 据 的 消费 者 就 必须 要 猜测 要 点 并 
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可 能 产生 曲解 。 

图 12.18 中 显示 了 一 张 美国 地 图 ， 图 中 的 点 表示 了 店铺 的 地 理 位 置 。 这 张 地 图 是 一 种 比 一 
张 小 表 更 有 力 的 数据 搞 述 方式 。 这 科 方 法 非常 适合 项 目 发 起 人 受众 。 基 于 颜色 和 底 纹 ， 这 张 图 
显示 了 哪里 BigBox 店铺 已 经 饱和 ， 哪 里 公司 已 经 开拓 了 市 场 ， 以 及 哪里 既 有 SuperBox 店铺 又 
有 BigBox 店铺 。 相 较 于 图 12.16 和 图 12.17 的 密度 表 ， 图 12.18 中 的 数据 可 视 化 对 沟通 来 说 更 
AAS. WGA RIA, 分析 团 队 还 可 以 使 用 其 他 简易 的 可 视 化 技术 来 描述 数据 ， 例 如 条 形 


















































































































































































































































































































































































































































图 和 折线 图 。 
BigBox 商 店 地 图 商店 类 型 
n oso 
Bl sso. 
: =< 
e 
3: 
e 
8 
et? 





Map based on Longitude (generated) and Latitude (generated) Color shows details about Store Type. Details are shown for ZIP 


图 12.18 ”以 地 图 形式 显示 的 45 年 开店 数据 








12.3.2 ”图 的 演进 


可 视 化 允许 人 们 以 一 种 与 数据 表 相 比 更 有 吸引 力 的 方式 以 及 在 直观 的 、 可 预知 的 层面 上 描 
述 数据 。 此 外 ， 分 析 师 和 数据 科学 家 可 以 使 用 可 视 化 来 交互 、 探 索 数据 。 下 面 是 数据 科学 家 为 
了 更 好 地 理解 数据 、 对 数据 建 模 ， 并 评估 当前 定价 模型 的 效果 而 对 定价 数据 进行 探索 时 经 历 的 
步骤 示例 。 图 12.19 显示 了 一 个 随 着 反映 价格 敏感 度 的 用 户 评分 分 布 的 定价 数据 。 
数据 科学 家 首先 可 能 将 数据 视 为 用 户 定价 水 平 的 原始 分 布 。 由 于 在 图 12.19 中 右边 的 值 有 
一 个 长 尾 ， 所 以 很 难 了 解 O~S 之 间 的 用 户 评分 数据 是 如 何 紧 密 地 聚集 的 。 

为 了 更 好 地 理解 , 数据 科学 家 可 以 显示 用 户 评分 的 对 数 分 布 ( 见 第 3 章 ), 如 图 12.20 所 示 。 
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12.3 ”数据 可 视 化 基础 
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图 12.19 ”用 户 评分 的 频率 分 布 
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12.20 ”用 户 评 分 的 对 数 的 频率 分 布 

图 12.20 中 具有 较 少 偏差 的 分 布 可 以 让 数据 科学 家 更 方便 地 更 办 ,图 12.21 所 示 为 一 个 调整 
过 的 图 12.20 的 视图 ， 分布 的 中 位 数 大 约 是 2.0。 该 图 提供 了 一 个 新 的 用 户 评分 〈 或 指标 ) 的 分 
布 ， 该 评分 可 以 衡量 用 户 的 价格 敏感 水 平 〈 当 以 对 数 表示 )。 
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新 用 户 评分 的 分 布 
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新 用 户 评分 


图 12.21 新 用 户 评分 的 频率 分 布 
男 一 个 想法 是 分 析 一 段 时 间 内 价格 分 布 的 稳定 性 ， 看 看 提供 给 客户 的 价格 是 否 稳 定 。 在 
&| 12.22 中 可 以 看 到 ,价格 是 稳定 的 。 在 这 个 示例 中 ， 用 户 的 定价 评分 与 以 天 计 的 时 间 无 关 ， 

保持 在 2 到 3 的 一 个 狭窄 区 间 内 。 换 句 话说， 用户 评分 体现 出 ， 客 户 购买 给 定 产品 的 时 机 并 不 
显著 影响 他 们 所 愿意 付出 的 价钱 ， 如 y 轴 上 显示 。 


用 户 评分 在 时 间 上 的 分 布 (稳定 性 分 析 ) 
































































































































用 户 评分 
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图 12.22 价格 稳定 性 分 析 图 
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此 时 数据 科学 家 已 经 掌握 了 关于 本 示例 的 下 述 信息 ， 并 对 数据 做 出 了 一 些 观测 。 
e. 大 多 数 用 户 的 价格 敏感 度 评分 都 在 2 和 3 之 间 。 
e 在 对 用 户 评分 取 对 数 后 ， 创 建 了 一 个 新 的 用 户 评分 














































































































目标 ， 将 数据 但 
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e 定价 评分 似乎 随 着 时 间 推 移 趋 于 稳定 ， 所 以 作为 客户 的 持续 时 间 似 乎 并 没有 对 用 户 定 
价 评 分 有 显著 的 影响 。 相 反 ， 用 户 评分 随 着 时 间 相 对 稳定 地 保持 在 一 个 小 范围 内 。 
比 时 ,分析 师 可 能 想 要 探索 提供 给 客户 的 价格 区 间 。 图 12.22 和 图 12.23 所 示 为 当前 在 客户 
群 内 的 价格 分 层 示 例 。 
到 12.23 所 示 为 一 个 客户 群 的 价格 分 布 。 在 这 个 示例 中 ， 上 忠诚 度 得 分 和 价格 呈正 相关 性 : 
当 忠 诚 度 得 分 增加 ， 客 户 愿 意 支付 的 价格 也 增加 。 在 这 个 例子 中 最 忠诚 的 客户 愿意 支付 更 高 的 
价格 ， 这 看 起 来 像 是 一 个 奇怪 的 现象 ， 但 现实 情况 是 非常 忠诚 的 客户 对 价格 的 波动 
感度 会 比较 低 。 然 而 ， 关 键 是 要 理解 哪些 客户 是 高 度 忠 诚 的 ， 这 样 才 能 对 正确 的 客户 团体 收取 
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图 12.23 ”美元 价格 与 客户 忠诚 得 分 的 比较 图 


图 12.24 所 示 为 图 12.23 的 一 个 变 体 。 在 这 种 情况 下 ， 新 图 
这 次 在 图 的 底部 添加 了 反应 数据 点 分 布 的 地 牧 图 ( 第 3 童 )。 
图 底部 的 地 毯 图 表示 本 示例 中 的 大 多 数 客户 的 忠诚 得 分 位 于 x 轴 的 大 约 1 一 3 狭窄 区 间 内 ， 
他 们 都 被 提供 了 同样 的 一 组 相当 高 的 价格 Cy 轴 上 的 0.9 一 1.0 )。 本 侈 中 的 y 轴 可 以 表示 定价 得 
分 ， 或 者 在 数 以 百 万 美元 计 的 客户 的 原始 值 。 这 个 示例 中 ， 一 个 重要 的 认识 是 定价 很 高 ， 且 被 
提供 给 绝 大 多 数 客户 。 
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绘 了 相同 的 客户 价格 层 , 但 
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具有 评分 分 布 的 当前 定价 模型 
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12.24 ”美元 价格 与 客户 忠诚 得 分 的 比较 图 ( MEMBER ) 
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于 图 12.25 中 所 显示 的 信息 ， 团 队 可 能 会 决定 开发 新 的 定价 模型 。 相 较 于 在 不 考虑 客户 
忠诚 度 的 情况 下 为 客户 提供 固定 的 价格 ， 新 的 定价 模型 可 以 为 客户 提供 更 为 动态 的 价格 。 在 这 
个 可 视 化 中 ,数据 显示 了 价格 相对 于 客户 忠诚 度 的 评分 呈 一 个 曲线 斜率 上 涨 ， 在 图 底部 的 地 牧 
到 表明 大 多 数 客户 保持 在 x 轴 上 的 1~3 之 间 , 不 同 于 为 所 有 这 些 客户 提供 一 样 的 价格 , 现在 建 
议 随 着 客户 忠诚 度 的 增加 而 逐步 上 涨 价格 。 某 种 意义 上 说 ， 这 似乎 有 屠 常 理 。 理 应 为 最 忠诚 的 
客户 提供 最 优惠 的 价格 。 然 而 ， 在 现实 中 经 常 是 相反 的 情况 ， 即 以 最 具有 吸引 力 的 价格 吸引 最 
不 忠诚 的 客户 。 原 因 在 于 忠诚 的 客户 对 价格 并 不 那么 敏感 ， 他 们 享受 的 是 产品 本 身 ， 即 使 产品 
价格 的 小 幅 波动 也 会 留 住 他 们 。 相 反 ， 不 太 忠 诚 的 顾客 会 流失 ， 除 非 对 他 们 提供 更 具有 吸引 力 
的 价格 。 换 名 话说 ， 不 大 忠诚 的 客户 是 对 价格 更 加 敏感 的 。 为 了 解决 这 一 问题 ， 考 虑 了 这 一 点 
的 新 的 定价 模型 会 提供 较 高 的 价格 给 更 忠诚 的 客户 和 较 低 的 价格 给 不 太 忠 诚 的 客户 ， 来 最 大 化 
收益 和 最 小 化 客户 流失 。 相 较 于 查看 表 和 原始 值 来 说 ， 创 建 数 据 可 视 化 可 以 让 受众 以 更 加 具 
体 的 方式 看 到 这 些 变化 。 
数据 科学 家 通常 有 多 种 不 同 的 方式 来 遍历 和 查看 数据 ， 制 定 假设 并 力 
给 定 模型 的 影响 。 这 个 可 视 化 实例 探索 了 定价 分 布 、 价 格 波动 ， 以 及 在 实施 新 模型 来 优化 
格 的 前 后 在 价格 层面 上 的 差异 。 可 视 化 工作 说 明 在 实施 模型 后 数据 看 起 来 是 什么 样 的 ， 可 以 
帮助 数据 科学 家 迅速 理解 数据 间 的 关系 。 
就 基于 一 个 客户 群 的 定价 分 布 来 说 ， 定 价 场景 中 的 图 看 起 来 太 过 技术 ， 因 此 适用 于 由 数据 
科学 家 组 成 的 技术 受众 。 图 12.26 所 示 为 一 个 人 如 何 向 其 他 数据 科学 家 或 者 数据 分 析 师 受众 展 
示 这 张 图 。 这 张 图 表明 了 价格 层次 与 客户 忠诚 之 间 呈 指数 曲线 关系 。 注 意图 右 侧 的 注释 与 目标 
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外 检验， 然后 探索 
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12.3 ”数据 可 视 化 基础 



























































定价 的 精确 度 、 模 型 稳健 性 方面 的 变数 ， 以 及 模型 在 生产 环境 中 运行 时 的 速度 预期 有 关 。 












































新 提出 的 带 有 评分 分 布 的 定价 模型 


价格 (美元 ) 








价格 (美元 ) 
图 12.25 ”新 的 定价 模型 与 美元 价格 的 比较 CR HEBR ) 











图 的 演进 ， 分 析 师 示例 
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24 | “实施 新 的 定价 层次 方法 提升 价格 
i 促销 的 精度 23% 
| / 价格 优化 模型 解释 了 92% 的 
: | ntis 
is 
« 模型 可 以 每 天 运行 于 生成 环境 ， 
21 | 如 果 需 要 的 话 ， 可 以 针对 直 邮 
| 一 | 活动 或 网 络 促销 进行 更 改 
o 2 m. a 10 





图 12.26 ”图 的 演进 ， 包 含 支持 观点 的 分 析 师 示例 



























































图 12.27 所 示 为 男 一 个 价格 优化 项 目 场景 的 结果 示例 ， 显 示 一 个 人 如 何 向 项 目 发 起 人 展示 。 
这 张 图 显示 了 一 个 简单 的 条 形 图 来 描绘 每 个 客户 或 用 户 段 的 平均 价格 。 图 12.27 显示 了 比 图 12.26 
更 简单 的 视觉 效果 。 它 清楚 地 描绘 了 忠诚 得 分 较 低 的 客户 往往 更 容易 获得 更 低 的 价格 。 注 意图 
右 侧 关注 的 是 业务 影响 和 成 本 控制 ， 而 不 是 模型 的 详细 特征 。 
图 12.27 右 侧 的 注释 描述 了 模型 在 高 层次 的 影响 与 实施 价格 优化 之 来 的 成 本 控制 。 
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图 的 演进 一 一 项 目 发 起 人 示例 


Average Price Per Segment * 在 项 目 之 前 ， 针 对 所 有 人 提供 相同 的 
价格 促销 
* 使 用 了 新 的 方法 : 
高 忠诚 度 的 客户 不 会 收 到 很 多 价格 


促销 ， 因 为 他 们 的 忠诚 度 不 会 受到 
价格 的 强烈 影响 
低 忠诚 度 的 客户 会 受到 价格 的 影响 ， 
可 以 更 好 地 将 他 们 当 作 目 标 
* 使 用 了 该 方法 后 ， 项 目 节省 了 多 项 成 本 
| 在 流失 用 户 上 节省 了 200 万 美元 


sae Stine. Na 在 获取 新 客户 上 节省 了 150 万 美元 
hurt 在 价格 促销 上 节省 了 100 万 美元 


图 12.27 图 的 演进 一 一 项 目 发 起 人 示例 
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12.3.3 ”通用 表示 方法 


虽然 有 很 多 类 型 的 数据 可 视 化 ， 但 是 只 有 几 种 基本 类 型 的 图 表 来 描绘 数据 和 信息 。 了 解 什 
么 时 候 使 用 特定 类 型 的 图 表 来 描述 特定 类 型 的 数据 是 很 重要 的 。 表 12.3 所 示 为 一 些 基本 的 图 表 
类 型 , 可 以 引导 读者 理解 要 根据 特定 类 型 的 数据 和 团队 试图 传递 的 信息 来 使 用 不 同类 型 的 图 表 。 
对 数据 使 用 不 合适 的 图 表 可 能 看 起 来 有 趣 或 者 非 同 寻常 ， 但 这 通常 会 让 受众 感到 困惑 。 目 的 是 
要 找到 一 种 最 好 的 图 表 来 清晰 地 表示 数据 , 使 得 可 视 化 不 掩盖 消息 ,而 是 让 读者 能 够 获取 信息 。 


表 12.3 数据 和 图 表 的 常见 表示 方法 
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数据 可 视 化 图 表 类 型 
组 件 《〈 整 个 的 一 部 分 ) 饼 图 
项 目 ATC 
时 间 序 列 线 图 
频率 线 图 或 直方 图 
关联 艇 点 图 、 并 排 的 条 形 图 
K 12.3 中 显示 了 最 基本 、 最 常见 的 数据 表示 方法 ,可 根据 情况 和 受众 来 合并 、 点 缀 、 细 化 。 
建议 团队 考虑 要 沟通 的 信息 ， 然 后 选择 适当 类 型 的 可 视 化 类 型 来 支持 论点 。 乱 用 图 表 往往 会 迷 
惑 受众 ， 所 以 在 选择 图 表 的 时 候 考虑 数据 类 型 和 希望 传递 的 信息 是 很 重要 的 。 
饼 图 用 来 显示 组 成 部 分 ， 或 者 与 整体 关联 的 部 分 。 饼 图 也 是 图 表 中 最 常 被 误 用 的 类 型 。 如 















































































































































有 情况 需要 使 用 饼 图 ， 当 图 中 只 显示 2 一 3 个 项 目的 时 候 才 使 用 它 ， 仅 用 于 发 起 人 受众 。 











































































































12.3 ”数据 可 视 化 基础 


















































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































条 形 图 和 线 图 更 常用 ， 可 用 于 显示 一 段 时 间 的 比较 和 趋势 。 尽 管 人 们 更 经 常 使 用 垂直 条 形 
色 ， 但 是 水 平 条 形 图 可 以 给 作者 更 多 的 空间 来 放置 文本 标签 。 垂 直 条 形 图 往往 在 标签 比较 小 的 
时 候 表 现 得 很 好 ， 例 如 显示 基于 年 的 比较 。 

对 于 频率 ， 可 用 直方 图 向 分 析 师 或 数据 科学 家 显示 数据 的 分 布 。 如 本 童 前面 中 的 定价 示例 
所 示 ， 在 对 数据 进行 可 视 化 来 为 模型 规划 做 准备 时 ， 数 据 分 布 通常 是 第 一 步 。 为 了 定性 评价 
关 性 ， 可 使 用 散 点 图 比较 变量 之 间 的 关系 。 

对 于 任何 演示 文档 ， 选 择 图 表 来 传递 信息 时 ， 要 考虑 受众 和 复杂 程度 。 这 些 图 表 本 身 是 简 
单 的 ,但 是 在 添加 数据 变量 、 组 合 图 标 或 添加 动画 后 ， 它 们 会 变 得 更 加 复杂 。 

12.3.4 ”如 何 清理 图 形 

很 多 时 候 ， 软 件 在 为 数据 集 生 成 图 形 时 增加 了 太 多 的 东西 。 这 些 增 加 的 视觉 干扰 可 能 让 可 
视 化 显得 很 乱 ， 甚 至 会 手 盖 图 中 的 要 点 。 一 般 情 况 下 ， 最 好 的 做 法 是 在 创建 图 形 和 数据 可 视 化 
时 力求 简单 。 知 道 如 何 简化 图 形 或 清理 凌乱 的 图 表 有 助 于 尽 可 能 清晰 地 传达 关键 信息 。 图 12.28 
所 示 为 一 个 有 几 处 设计 问题 的 线 图 。 

Gi S i ral = S ral 

图 12.28 ”如 何 清理 图 形 ， 例 1 ( 清理 之 前 ) 

1. 如 何 清理 图 形 

图 12.18 所 示 的 线 图 比较 了 两 个 随时 间 变 化 的 趋势 。 图 表 看 起 来 很 乱 且 包含 很 多 图 表 垃 圾 ， 
分 散 了 受众 对 主要 信息 的 注意 力 。 图 表 垃圾 chart junk ) 是 指 提供 额外 素材 但 是 对 图 形 的 数据 
部 分 没有 任何 贡献 的 数据 可 视 化 元 素 。 如 果 删 除 图 表 垃圾 ， 图 形 的 含义 和 理解 也 不 会 被 削弱 反 
而 更 清楚 。 图 12.28 中 有 5 类 “图 表 垃 圾 ”。 

e ”水 平 网 格 线 : 这 些 在 该 图 中 没有 意义 。 它 们 不 能 为 图 表 提 供 附 加 信息 。 

e ” 粗 短 的 数据 点 : 这 些 用 大 方块 表示 的 数据 点 会 吸引 受众 对 它们 的 注意 ， 但 是 从 数据 点 
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本 身 来 说 它们 不 代表 任何 特定 的 意义 。 
e ”在 线条 和 边界 上 过 度 使 用 强调 颜色 : 图 形 的 边界 是 较 粗 的 实 线 。 这 将 受众 的 注意 力 引 
到 图 形 的 边界 ， 但 它 不 包含 任何 信息 价值 。 此 外 ， 显 示 趋 势 的 线 相对 较 粗 。 
没有 背景 信息 或 标签 : 图 表 中 没有 图 例 来 提供 所 要 展示 的 背景 信息 。 线 也 缺乏 标签 来 
解释 它们 所 代表 的 意义 。 
用 挤 的 轴 标 签 : 图 中 有 太 多 轴 标 答 ， 所 以 显得 很 拥挤 。 没 有 必要 在 Y 轴 上 每 五 个 单位 
显示 一 个 标签 ， 或 在 X 轴 上 每 两 个 单位 显示 一 个 标签 。 以 这 种 方式 显示 ， 轴 标签 会 分 
Budd ace 
如 图 12.29 所 示 ， 图 12.28 中 这 5 种 形式 的 图 表 垃 圾 很 容易 被 纠正 。 注 意 在 图 12.28 中 没有 
p o me et 
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SuperBox 商 店 的 增长 
SuperBox BigBox 





开店 数量 统计 





0 a 





1962 1967 1972 1977 1982 1987 1992 1997 2002 
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图 12.29 ”如 何 清理 图 形 一 一 例 1 ( 清理 之 后 ) 









































图 12.29 和 图 12.30 所 示 为 对 图 12.28 中 的 图 表 进 行 清理 之 后 的 两 个 版 本 。 注 i; 
垃圾 问题 已 经 解决 了 。 至 表 都 有 清晰 的 标签 和 标题 来 增强 信息 ， 并 且 合 理 
出 作者 想 要 表达 的 重点 。 在 图 12.29 中 ， 深 绿色 代表 SuperBox 商店 的 数量 ， 因 为 i 
注 的 地 方 ， 而 BigBox 商店 数量 则 用 浅 灰色 来 显示 。 

比 外 ， 注 意图 12.29 和 图 12.30 中 两 个 图 形 使 用 的 白色 空间 。 删 除 图 表 中 的 网 格 线 、 过 多 的 
轴 、 视 觉 噪声 后 使 得 强调 颜色 ( 绿 线 图 ) 和 标准 色 (BigBox 商店 的 浅 灰 色 ) 之 间 有 强烈 对 比 。 
创建 图 表 时 ， 最 好 用 标准 色 、 浅 色调 或 者 颜色 阴影 来 描绘 最 主要 的 画面 ， 这 样 更 强 列 的 强调 颜 
色 可 以 突出 重点 。 在 这 种 情况 下 ， 以 浅 灰色 表示 的 BigBox 商店 的 趋势 融入 了 背景 但 没有 消失 ， 
同时 以 深 灰 色 来 表示 SuperBox 商店 的 趋势 ( 在线 图 中 是 亮 绿 色 ) 可 以 使 其 更 加 突出 ， 以 支持 作 
想 要 传达 的 关于 SuperBox 商店 增长 的 信息 。 
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开店 数量 的 差距 
一 一 SuperBox 与 BigBox 的 差距 
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例 1 ( 清理 之 后 的 另 一 个 图 ) 













































































图 12.29 的 一 个 代替 如 图 12.30 所 示 ， 如 果 主 要 信息 是 显示 新 店 增长 的 差距 ,那么 可 以 创建 
到 12.30， 进 一 步 简化 图 12.28， 只 描绘 SuperBox 商店 对 比 常规 BigBox 商店 的 差距 。 这 两 个 例 
子 说 明了 要 基于 这 些 图 表 的 作者 想 要 强调 什么 ， 然 后 以 不 同 的 方式 将 其 表达 出 来 。 



























































































































































2. 如何 清理 图 形 一 一 第 2 个 例子 
图 12.31 描绘 了 另 一 个 清理 图 表 的 例子 。 这 个 垂直 条 形 
包括 滥用 配色 方案 和 缺乏 背景 。 
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表 垃 圾 相关 的 典型 问题 ， 
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图 12.31 如 何 清理 图 形 








例 2 ( 清理 之 前 ) 
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12.31 中 有 5 PERKA 的 图 表 垃 圾 。 
e 垂直 网 格 线 : 这 个 图 形 不 需要 这 些 垂直 网 格 线 。 他 们 没有 提供 额外 的 信息 来 帮助 受众 
理解 数据 中 的 信 息 。 相 反 ， 这 些 垂直 网 格 线 只 会 扰乱 受众 观察 数据 。 
e 强调 颜色 太 过 : 这 个 条 形 图 使 用 了 强烈 的 色彩 和 高 对 比 度 的 暗 灰 度 。 在 一 般 情 况 下 ， 
最 好 是 使 用 不 明显 的 色调 ， 以 及 低 对 比 度 的 灰色 作为 中 性 颜色 ， 然 后 用 黑色 基调 或 浓 
厚 色 彩 来 强调 数据 和 关键 信息 。 
e 没有 图 表 标 题 : 因为 图 形 缺 乏 图 表 标 题 ， 受 众 不 知 他 看 到 的 是 什么 ， 也 没有 适当 背景 
信息 。 
e 右 侧 的 图 例 限制 了 图 形 的 空间 : 虽然 该 图 中 有 图 例 ， 但 是 它 显 示 在 右 侧 ， 这 会 导致 算 
直 条 形 图 在 水 平 上 被 压缩 。 图 例 应 该 放 在 图 的 顶部 才 更 加 合理 ， 在 那里 它 不 会 干扰 到 
所 要 表达 的 数据 。 
e 小 标签 : 水 平和 垂直 轴 标 签 间 有 适当 的 间 中 8 

们 应 该 稍微 大 一 些 同 时 不 显得 过 于 突 
Z| 12.33 和 图 12.32 中 所 示 为 对 图 12.31 中 的 图 表 进 行 清理 之 后 的 两 个 版 本 。 图 表 垃 圾 的 问 
题 已 经 得 到 解决 。 每 个 图 表 都 有 一 个 清晰 的 标签 和 标题 来 增强 信息 ， 并 且 合 理 使 用 颜色 来 突出 
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但 它们 上 面 的 字体 太 小 ,不 易 阅 读 。 它 























































































































































































































































































































































































































作者 想 要 表达 的 重点 图 12.32 和 图 12.33 所 示 为 根据 表达 者 所 要 表达 的 要 点 来 修改 图 形 的 两 个 
选项 。 

到 12.32 使 用 强烈 的 强调 颜色 名 WA ERE SuperBox 商店 ,以 支持 图 表 的 标题 :SuperBox 
商店 的 增长 

















SuperBox 商 店 的 增长 
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图 12.32 ”如 何 清理 图 形 





|2 ( 清理 之 后 ) 
































12.3 数据 可 视 化 基础 




















假设 演讲 人 想 讨论 关于 BigBox 商店 的 总 增长 。 用 图 12.33 所 示 的 线 图 来 显示 BigBox 商店 





































































































随时 间 发 展 的 趋势 是 一 个 比较 好 的 选择 。 
商店 随时 间 变 化 的 增长 
SuperBox Big8ox 一 一 Grand Total 
140 
120 
100 
= 20 
= 
Eg e 
40 
20 
ot : a 
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 
Year 
图 12.33 ”如 何 清理 图 形 |2 ( 清理 之 后 的 另 一 个 图 ) 























在 这 两 种 情况 下 ， 图 表 中 的 噪声 和 干扰 已 被 删除 。 因 此 ， 条 形 图 中 用 了 
据 已 被 加 强 ， 而 其 他 数据 因为 强调 了 图 表 标 题 中 的 关键 点 ， 显 得 更 加 突出 了 。 
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E 如 前 面 的 例子 所 述 ， 在 创建 图 表 图 形 时 ， 重 点 应 该 是 简单 。 应 当 创 建 没有 垃圾 图 表 的 图 
简单 的 方法 把 图 形 清晰 化 。 数据 可 视 化 的 目标 应 该 是 尽 可 能 清晰 地 支持 关键 信息 
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数据 -笔墨 比率 (data-ink ratio ) 是 类 似 于 删除 图 表 垃 圾 的 想法 。 数 据 - 笔 墨 是 图 形 中 实际 绘 
制 数据 的 部 分 ， 而 非 数 据 笔墨 ae PEA AH. WHO AT SII SE a UR 7 TE 
纸 上 打 印 数据 的 可 视 化 ， 那 数据 -笔墨 被 认 作 为 (数据 -笔墨 ) / ( 用 于 打印 图 形 的 总 笔 
as )。 换 名 话说 ， 视 觉 上 的 数据 暑 么 数据 就 越 丰 富 旦 干扰 越 少 [4]。 














在 大 多 数 图 形 中 避免 使 用 三 维 


再 举 个 例子 ， 入 们 通常 会 犯 的 错误 是 在 图 中 增加 不 必要 的 阴影 、 深 度 或 维度 。 图 12.34 所 示 
为 一 个 有 2 个 可 视 维度 的 垂直 条 形 图 。 这 个 例子 简单 日 易于 理解 ， 重 点 在 于 数据 而 不 是 图 形 。 民 
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表 的 作者 选择 了 用 深蓝 色 的 颜色 来 突出 SuperBox 商店 ， 而 图 中 的 SuperBox 使 用 了 浅 赣 色 。 标 题 
是 关于 SuperBox 商店 的 增长 ， 图 中 的 SuperBox 条 形 图 是 深 色 的 ， 高 对 比 度 阴 影 能 更 加 吸引 受众 
的 注意 力 。 
SuperBox 商 店 的 增长 
m SuperBox BigBox 
100 
u 30 
$9 
= 40 | | | 
I | 
20 | 
0 | J T [ T T T T T 
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 
年 
图 12.34 ”一 个 简单 的 二 维 条 形 图 
比较 图 12.34 和 图 12.35， 图 12.35 显示 的 是 一 个 三 维 图 表 。 图 12.35 以 一 定 角度 显示 了 原 
始 条 形 图 ， 用 来 尝试 显示 深度 。 这 种 三 维 透视 图 使 得 观看 者 难以 衡量 实际 数据 ， 且 这 种 缩放 具 
有 欺骗 性 。 三 维 图 表 经 常会 扯 曲 尺度 和 轴 ， 这 会 阳 碍 观看 者 的 认 知 。 图 12.35 中 为 深度 增加 的 
第 三 维 并 没 让 它 更 好 看 ， 反 而 变 得 更 难 理解 了 。 




















12.35 ”有 误导 性 的 三 维 条 形 












































SuperBox 商 店 的 增长 
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图 12.34 和 图 12.35 中 描绘 了 相同 的 数据 ， 但 是 很 难 判断 图 12.35 中 条 形 图 的 高 度 。 此 外 ， 
色 形 的 阴影 和 形状 导致 大 多 数 观看 者 要 花 时 间 看 图 表 的 角度 而 不 是 条 形 图 的 高 度 ， 而 条 形 图 的 
襄 度 恰恰 是 关键 信息 和 可 视 化 数据 的 目的 。 
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12.4 总结 


沟通 分 析 项 目的 价值 对 于 维持 一 个 项 目的 势 尖 和 得 到 组 织 内 的 支持 是 至 关 重 要 的 。 这 种 支 
持 是 有 助 于 把 一 个 成 功 的 项 目 转化 成 系统 或 将 其 整合 到 一 个 现 有 的 生产 环境 中 。 因 为 一 个 分 析 
项 目 可 能 需要 向 具有 各 种 背景 的 受众 传达 ， 所 以 本 章 建 议 创建 4 种 不 同 的 交付 成 果 ， 以 满足 各 
种 利益 相关 者 的 需求 。 
针对 项 目 发 起 人 的 演示 文档 。 
| 对 分 析 受 众 的 演示 文档 。 
技术 规范 文档 。 
有 展 好 注释 的 产品 代码 。 
生成 这 些 交 付 成 果 可 以 使 得 分 析 项 目 团 队 沟 通 和 推广 他 们 已 完成 的 工作 ， 而 当 团队 想 要 在 
生产 环境 中 实施 模型 时 ， 代 码 和 技术 文档 可 以 提供 帮助 。 

本 章 说 明了 选择 清晰 简单 的 可 视 化 表示 来 支持 最 终 演 示 文 档 中 的 要 点 或 描述 数据 的 重要 
性 。 大 多 数 的 数据 表示 和 图 形 可 以 通过 简单 地 去 除 视觉 干扰 来 提高 。 这 意味 着 要 减少 或 删除 图 
表 垃 圾 。 图 表 垃 圾 会 分 散 受 众 的 注意 力 ， 离 图 表 或 图 形 的 主要 目的 ， 而 且 图 标 垃圾 不 添 
加 信息 价值 。 遵 循 在 幻灯 片 或 可 视 化 中 将 干扰 最 小 化 的 几 个 常识 性 原则 ， 清 晰 简单 地 交流 ， 以 
合适 的 方式 使 用 颜色 ， 并 花 时 间 来 提供 背景 信息 ， 可 以 解决 图 表 和 幻灯 片 中 大 多 数 稼 见 问题 。 
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这 儿 条 指导 方针 为 创建 清晰 明确 的 视觉 效果 来 传达 关键 信息 提供 了 文 持 。 

在 大 多 数 情况 下 ， 最 好 的 数据 可 视 化 使 用 最 简单 、 最 清晰 的 视觉 图 来 说 明 关 键 论 点 。 要 如 
免 夯 蛇 添 足 的 点 组， 着 重 于 找到 最 佳 最 简单 的 方法 来 传输 信息 。 彰 景 信息 对 于 图 表 或 图 形 的 受 
众 来 说 也 是 至 关 重 要 的 ， 因 为 人 们 会 对 图 像 有 直接 的 预知 反应 。 为 此 ， 一 定 要 周全 地 考虑 颜色 
的 使 用 ， 以 及 比例、 图 例 和 坐标 轴 。 







































































1 描述 用 于 一 个 分 析 项 目的 4 种 常见 的 交付 成 果 。 

2， 儿 对 项 目 发 起 人 的 演示 文档 的 重点 是 什么 ? 

3. 创建 适当 的 图 表 的 例子 作为 面向 其 他 数据 分 析 师 和 数据 科学 家 的 演示 文档 的 一 部 分 。 解 

释 为 什么 这 些 图 表 适 合 向 受众 展示 。 
ee p que 化 的 数据 ， 以 及 为 什么 ? 

5， 作 为 实施 分 析 项 目的 ， 你 期 望 为 商业 智能 分 析 师 提供 哪 种 交付 成 果 ? 
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通过 下 述 这 些 额 外 的 参考 文献 ， 可 以 获悉 有 关 演 示 文 档 最 佳 实践 的 更 多 内 容 。 
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€ Say It with Charts, by Gene Zelazny[3]: 简单 的 参考 图 书 ， 介 绍 了 如 何 选 择 正确 的 图 形 

化 方式 来 描述 数据 ， 并 确保 能 清楚 地 传达 演示 文档 中 的 信息 。 
© Pyramid Principle, by Barbara Minto[5]: Minto 首创 了 构建 演示 文档 逻辑 结构 的 方法 : 

将 演示 文稿 分 为 3 部 分 ， 每 一 部 分 带 有 3 个 要 点 。 这 可 以 教会 人 们 如 何 将 不 同 的 内 容 
编织 为 一 个 故事 。 
€ Presentation Zen, by Garr Reynolds [6]: 讲解 了 如 何在 演示 文档 中 清晰 、 简 洁 地 传达 思 
想 ， 以 及 如 何 使 用 图 像 。 本 书 涵盖 了 很 多 图 片 和 幻灯 片 在 改造 前 后 的 不 同 版 本 。 
€ Now You See It, by Stephen Few [4]: 提 供 了 许多 针对 给 定数 据 集 匹 配合 适 类 型 的 数据 可 
视 化 的 例子 。 


参考 书目 
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New Riders, 2011. 
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异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗下 IT 专业 图 书 旗 舰 社区 ， 于 2015 年 8 
月 上 线 运 营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 
提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 








社区 里 都 有 什么 ? 


购买 图 书 














m Fri LX 
AREE oui hk 


B www.epubit.com.cn 








我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科学 等 领域 有 众多 经 典 畅销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 故 





布 新 书 书 讯 。 

















下 载 资 源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 








与 作 译 者 互动 











很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 
用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 


E ss 


特别 优惠 


购买 本 书 的 读者 专 享 异 步 社 区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG ， 然 后 点 击 “ 使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 








纸 电 图 书 组 合 购买 




















M 











社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 





社区 里 还 可 以 做 什么 ? 


fee 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 








软 技能 : 代码 之 外 的 生存 指南 
[354986 Z. FSE ( John Z. Sonmez ) (作者 ) 王 小 刚 GRE) — 杨 海 玲 Stee) 
e 6 9. OK 






这 是 一 本 真正 从 “人 ” ( 而 非 技术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 自 身 发 展 的 书 。 书 中 论述 的 
包括 a 人 ”的 因素 ， 全 面 讲解 软件 行业 从 业 人 员 所 


程 到 精 耕 细 人 份 杀手 级 简历 ， 从 创 
就 到 与 如 何 与 “拖延 症 ” 做 斗争 ,甚至 





eE Y3500 p 


电子 版 + 纸 质 版 Y 5900 














者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 
EE 











社区 提供 基于 Markdown 的 写作 环境 ， 





Ie 


欢 写作 的 您 可 以 在 此 一 试 身 手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 




















会 议 活动 早 知道 

















您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 











异步 社区 | 微 信 服务 号 。 


社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 





扫描 任意 二 维 码 都 能 找到 我 们 : 

















微 信 订阅 号 ”官方 微 博 “QQ 群 : 368449889 


BAM: e 人 邮 和 异步 社区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 





投稿 & 咨询 : contact@epubit.com.cn 





数据 科学 与 大 数据 分 析 Del eS 
数据 的 发 现 分 析 可 视 化 与 表示 e ea ne 


数据 科学 和 大 数据 分 析 是 指 利用 数据 的 力量 来 发 现 新 的 洞 见 。 本 书 涵盖 了 数据 科学 涉及 的 行为 广度 以 及 所 使 用 的 方法 和 
工具 。 本 书 内 容 侧重 于 任何 行业 和 技术 环境 中 都 会 用 到 的 概念 、 原 理 和 实际 应 用 ， 并 通过 开源 软件 来 分 析 案 例 ， 以 帮助 
读者 更 好 地 理解 。 


本 书 将 帮助 您 : 


e 成 为 数据 科学 团队 中 的 一 名 贡献 者 ; 

e 部 署 结构 化 的 生命 周期 方法 来 分 析 数 据 问题 ; 
e 应 用 合适 的 分 析 技 术 和 工具 来 分 析 大 数据 ; 
e 学 习 如 何 用 数据 来 讲 一 个 动人 的 故事 ， 以 推动 商业 行为 ; 
€ 备考 EMC Proven Professional 数 据 科学 家 认证 。 
































EMC 专 家 认证 是 IT 行业 领先 的 教育 和 认证 项 目 ， 涵 盖 了 信息 存储 技术 、 虚 拟 化 技术 、 云 计算 、 数 据 科学 与 大 数据 
分 析 等 领域 。 


通过 认证 是 一 种 很 好 的 自我 投资 方式 ， 同 时 也 是 对 自己 专业 知识 的 正式 验证 。 
本 书 可 以 作为 准备 数据 科学 专员 (EMCDSA ) 认证 的 资料 。 
欲 了 解 更 多 信息 ， 请 访问 : http://education.EMC.com. 








在 驱动 企业 和 服务 提供 商 转 型 其 运营 方式 以 及 以 服务 形式 交付 IT( IT as a service) 方面 ，EMC 是 全 球 领 导 者 。 而 该 
转型 的 基础 则 是 云 计算 。 通 过 创新 的 产品 和 服务 ，EMC 加 速 了 云 计算 的 进展 ， 旨 在 帮助 IT 部 门 以 一 种 更 为 敏捷 、 可 信 
和 具备 成 本 效益 的 方式 来 存储 、 管 理 、 保 护 和 分 析 它 们 最 有 价值 的 资产 一 一 信息 。 关 于 EMC 的 更 多 信息 ， 请 访问 www. 


EMC.com。 
ISBN 978-7-115-41637-7 
9"787 I 























异步 社区 www.epubit.com.cn 
新 浪 微 博 @ 人 邮 异 步 社区 


投稿 /反馈 邮箱 contact@epubit.com.cn 





115 416 


PEARS: BEM 


分 类 建议 : 计算 机 /数据 科学 /数据 统计 与 分 析 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 





